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人 脸 研究 是 跨越 人 文科 学 与 自然 科学 的 新 兴 交 又 研究 领域 ,日益 得 到 人 们 的 重视 。 随 着 
其 研究 成 果 在 和 谐 人 机 交互 、 机 器 人 、 虚 拟 现实 、 身 份 识别 等 领域 得 到 应 用 ， 希望 了 解 学 习 


人 脸 研 究 相 关 知 识 的 人 也 越 来 越 多 。 针 对 这 种 需求 ， 作 者 在 多 年 


本 书 ， 目 的 是 为 对 人 脸 研究 感 兴趣 的 学 生 和 研 








人 脸 工程 学 是 指 以 人 类 学 、 心 理学 、 脑 科学 、 人 文科 学 、， 














能 等 学 科 为 理论 基础 ， 利 用 工程 的 方法 和 技术 (尤其 是 信息 技术 ) 对 























研究 的 基础 上 ， 整 理 编写 了 
if 究 人 员 提 供 一 本 较 全 面 的 入 门 参考 书籍 。 

we, PEE ALB 
LAUS CALABAR AL, at 


模 与 重 构 ) 进行 研究 的 学 问 。 本 书 详细 介绍 了 人 脸 工 程 研究 的 相关 理论 和 算法 ， 并 总 结 作 


者 所 在 课题 组 的 研究 成 果 ， 给 出 了 人 脸 识别 、 














表情 识别 和 人 脸 合成 等 实例 系统 。 





全 书 共有 11 章 。 第 1 章 主 要 介绍 人 脸 工 程 学 的 研究 内 容 、 发 展 情况 及 应 用 领 
章 论述 了 人 类 学 、 文 学 艺术 、 心 理学 与 脑 科 学 、 动 画 领 域 关 于 人 脸 的 研究 ; 第 3 章 给 出 了 几 
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种 常见 的 面部 动作 编码 系统 和 面 商 


















































域 ; 第 2 


表情 测量 系统 ; 第 4 章 阐述 了 图 像 处 理 技术 ; 第 5 章 给 出 


了 几 种 常用 的 人 脸 跟 踪 检 测 技术 ; 第 6 章 主要 介绍 几 种 常用 的 特征 提取 算法 ; 第 7 章 叙 述 了 


几 种 常用 的 模式 识别 算法 ; 第 8 章 主要 介绍 常用 的 人 脸 合成 技术 ; 











统 的 设计 范例 ; 第 10 章 介绍 了 表情 识别 系统 ; 第 11 章 阔 述 了 人 脸 合成 系统 。 
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1.1 人 脸 工 程 学 


1.1. 1 ”人 脸 工程 学 的 研究 内 容 


人 脸 是 人 类 情感 表达 和 交流 最 重要 、 最 直接 的 载体 。 通 过 人 脸 可 以 推断 出 一 个 人 的 种 
族 、 地 域 ， 其 至 身份 、 地 位 等 信息 ; 人 们 还 能 通过 人 脸 丰 富 而 负责 的 细小 的 变化 ， 得 到 对 方 
的 个 性 和 情绪 状态 。 人 上 脸 在 人 与 人 的 交流 中 不 但 能 表达 友好 、 敌 对 、 赞 成 和 反对 等 语气 上 的 
信息 ， 其 至 可 以 对 话语 、 语 言 等 语义 上 的 信息 进行 说 明和 补充 。 从 古 至 今 ， 各 类 艺术 创作 者 
一 直 使 用 神态 各 异 的 人 物 来 表达 自己 的 思想 、 展 现 故事 的 情节 。 尤 其 在 电影 创作 中 ， 往 往 演 
员 的 一 个 眼神 就 能 够 将 人 物 的 内 心 展现 无 遗 。 正 因为 人 脸 在 人 的 情感 表达 中 扮演 着 重要 的 角 
色 ， 人 们 很 早 就 意识 到 人 脸 的 重要 性 。1872 年 ，Carles Darwin 就 出 版 了 《人 与 动物 的 情绪 
表达 (The Expression of the Emotions in Man and Animals) 》 一 书 ， 开 始 了 对 人 脸 表 情 的 研究 。 
长 期 以 来 ， 科 学 界 从 计算 机 图 形 学、 图 像 处 理 、 计 算 机 视觉 、 人 类 学 等 多 个 学 科 对 人 脸 进行 
研究 。 在 这 些 领域 中 ， 人 脸 的 识别 、 获 取 、 生 成 和 模拟 一 直 是 难点 和 热点 。 人 脸 的 识别 、 获 
取 、 生 成 和 模拟 正 是 人 脸 工 程 学 研究 的 主要 内 容 。 

人 脸 工 程 学 研究 是 指 以 人 类 学 、 心 理学 、 脑 科学 、 人 文科 学 、 认 知 科学 、 信 息 科 学 、 人 
工 智能 等 学 科 为 理论 基础 ， 利 用 工程 的 方法 和 技术 (尤其 是 信息 技术 )， 对 人 脸 (包括 识 
| 、 建 模 与 重 构 及 其 应 用 等 相关 内 容 ) 进行 研究 。 人 脸 工 程 学 的 研究 内 容 主要 包括 人 脸 识 
|、 表 情 识别 和 人 脸 合 成 三 部 分 。 

1. 人 脸 识 别 

广义 的 人 脸 识 别 是 指 分 析 待 识别 的 人 脸 图 像 ， 从 中 提取 出 有 效 的 信息 ， 并 与 数据 库 中 的 
已 知人 脸 信 息 进 行 比 较 ， 从 而 得 出 决策 或 认证 信息 的 一 种 技术 。 其 研究 内 容 包 括 以 下 五 个 方 
面 : 

(1) 人 上 脸 检测 ”从 各 种 不 同 的 背景 中 检测 是 否 存 在 人 脸 ， 并 确定 其 位 置 、 大 小 、 形 状 、 
姿态 等 信息 的 过 程 。 它 关系 到 后 续 识别 工作 能 否 正确 进行 ， 并 保障 最 终 识别 结果 的 可 靠 性 。 

(2) 人 脸 表征 ”确定 表示 检测 出 的 人 脸 和 数据 库 中 的 已 知人 脸 的 描述 方式 。 通 常 的 表 
示 方 法 包括 几何 特征 (如 欧 氏 距离 、 曲 率 、 角 度 等 )、 代 数 特 征 ( 如 算 阵 特征 矢量 ) 和 固定 
特征 模板 等 。 

(3) 人 上 脸 鉴别 ” 即 狭义 的 人 脸 识 别 ， 就 是 通常 所 指 的 将 待 识别 的 人 脸 与 数据 库 中 的 已 
知人 脸 进行 比较 ， 得 出 相关 信息 。 这 一 过 程 的 核心 是 选择 适当 的 人 脸 表 示 方 式 和 匹配 策略 ， 
系统 地 构造 与 人 脸 的 表征 方式 密切 相关 。 

(4) 表情 /姿态 分 析 “ 即 对 待 识别 人 脸 的 表情 或 姿态 信息 

(5) 生理 分 类 对待 识别 人 脸 的 物理 特征 进行 分 类 ， 得 
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信息 ,或 从 几 幅 相关 的 图 像 中 推导 出 希望 得 到 的 人 脸 图 像 ， 如 从 父母 的 脸 像 推导 出 孩子 的 脸 
像 等 。 

本 书 中 的 人 脸 识 别 主 要 是 指 狭义 的 人 脸 识别 ， 指 将 竺 识别 的 人 脸 与 数据 库 中 的 已 知人 脸 
之 间 进 行 匹配 的 人 脸 鉴 别 。 

人 脸 识 别 的 目的 是 让 计算 机 具有 通过 人 脸 的 特征 来 鉴别 身份 的 功能 。 基 于 人 脸 特 征 的 身 
份 识别 主要 涉及 复杂 场景 中 的 人 脸 检 测 及 识别 技术 ， 是 一 种 依托 于 图 像 理解 、 模 式 识别 及 计 
算 机 视觉 、 统 计 学 和 人 工 智 能 等 高 技术 的 研究 方向 。 

2. 表情 识别 

表情 的 研究 融合 了 多 个 学 科 、 多 个 领域 ， 计 算 机 人 脸 表 情 识别 的 定义 是 : 利用 计算 机 对 
人 脸 的 表情 信息 进行 特征 提取 分 析 ， 按 照 人 的 认识 和 思维 方式 加 以 归 类 和 理解 ， 利 用 人 类 所 
具有 的 情感 信息 方面 的 先 验 知识 使 计算 机 进行 联想 、 思 考 及 推理 ， 进 而 从 人 脸 信息 中 去 分 析 
理解 人 的 情绪 ， 如 快乐 、 惊 奇 、 愤 钨 、 臣 惧 、 厌 恶 、 悲 伤 等 。 计 算 机 表情 识别 的 主要 目的 是 
利用 计算 机 进行 人 类 表情 的 模拟 和 分 析 ， 进 而 更 好 地 理解 面部 表情 在 艺术 、 人 际 交 往 ， 特 别 
是 非 语言 交流 以 及 情绪 加 工 中 所 起 的 作用 。 

3. 人 脸 合 成 

人 脸 合成 可 以 分 为 两 类 : 基于 模型 的 人 脸 合成 和 基于 图 像 库 的 人 脸 合成 。 

基于 模型 的 人 脸 合 成 研究 的 内 容 主 要 分 为 两 个 部 分 : 人 脸 建 模 和 人 脸 动画 。 

人 脸 建 模 主要 研究 人 脸 模 型 的 静态 建 模 、 合 成 人 脸 模型 的 几何 外 形 特 征 和 纹理 特征 。 其 
中 ， 既 包含 了 如 何 合成 同一 个 人 脸 模型 在 不 同 的 表情 和 动作 状态 下 形状 和 纹理 特征 ， 也 包含 
了 如 何 合成 不 同人 脸 模 型 的 形状 和 纹理 特征 。 

人 脸 动 画 则 研究 人 脸 模 型 的 动态 过 程 ， 研 究 人 脸 模 型 在 表情 和 动作 变化 过 程 中 ， 几 何 外 
形 和 纹理 的 变化 ， 以 及 如 何 有 效 地 驱动 人 脸 模型 做 出 复杂 的 表情 和 动作 。 

基于 图 像 库 的 人 脸 合 成 步骤 是 : 从 一 个 事先 建立 好 的 真人 图 像 库 中 根据 一 定 的 规则 挑选 
视频 片断 ， 然 后 做 相关 的 图 像 处 理 ， 最 后 进行 拼接 ， 从 而 达到 合成 的 目的 。 


11.2 人 上 脸 工程 学 研究 的 意义 与 应 用 


总 体 来 说 ， 有 三 个 大 方面 的 应 用 驱动 着 计算 机 人 脸 研究 的 进展 : 其 一 是 安全 ， 包 括 视 频 
监控 、 生 物 识 别 和 认证 等 ， 相 应 的 典型 研究 方向 为 人 脸 检 测 、 人 脸 跟踪 、 人 脸 识 别 等 ; 其 二 
是 艺术 ， 可 以 应 用 在 影视 艺术 、 游 戏 等 行业 ， 应 用 需求 为 : 如 何 使 用 计算 机 技术 生成 具有 丰 
富 表 情 的 人 脸 ， 其 对 应 的 典型 研究 方向 为 真实 感 / 非 真实 感 ，2D/3D 计算 机 人 脸 动画 ; 其 三 
为 人 机 交互 ， 主 要 研究 方向 为 多 通道 人 机 接口 (注视 跟踪 与 识别 )、 用 户 认 知 建 模 、 注 意 机 
制 等 ， 应 用 需求 为 : 使 计算 机 能 够 理解 人 的 面部 动作 、 行 为 、 情 感 等 ， 并 据 此 做 出 反馈 。 

下 面 分 别 从 人 脸 识别 、 表 情 识 别 和 人 脸 合成 三 方面 来 具体 介绍 人 脸 工程 学 研究 的 意义 与 
应 用 。 

1. 人 脸 识 别 

研究 人 脸 识 别 在 理论 和 技术 上 都 具有 重要 的 意义 : 一 是 可 以 推进 对 人 类 视觉 系统 本 身 的 
认识 ; 二 是 可 以 满足 人 工 智 能 应 用 的 需要 。 采 用 人 脸 识别 技术 ， 建 立 自 动人 脸 识别 系统 ， 用 
计算 机 实现 对 人 脸 图 像 的 自动 识别 有 着 广阔 的 应 用 领域 和 诱 人 的 应 用 前 景 。 具 体 来 说 ， 人 脸 
识别 技术 的 典型 应 用 有 : 
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(1) 身份 鉴定 〈 一 对 多 的 搜索 ) ”在 鉴定 模式 下 ， 确 定 一 个 人 的 身份 。 人 脸 识 别 技术 可 
以 快速 地 计算 出 实时 采集 到 的 面 纹 数据 与 人 脸 图 像 数据 库 中 已 知人 员 的 面 纹 数据 之 间 的 相似 
度 ， 给 出 一 个 按 相似 度 递减 排列 的 可 能 的 人 员 列 表 ， 或 简单 地 返回 鉴定 结果 (相似 度 最 高 
的 ) 和 相对 应 的 可 信和 度 。 

(2) 身份 确认 (一 对 一 的 比 对 ) 在 确认 模式 下 ， 面 纹 数据 可 以 存储 在 智能 卡 中 或 数码 
记录 中 ， 人 脸 识别 技术 只 需要 简单 地 将 实时 的 面 纹 数据 与 存储 的 相 比 对 ， 如 果 可 信和 度 超过 一 
个 指定 的 阔 值 ， 则 比 对 成 功 ， 身 份 得 到 确认 。 

(3) 监控 应 用 面 像 捕 所， 人 脸 识别 技术 可 以 在 监控 范围 中 跟踪 一 个 人 和 确定 他 的 位 
置 。 

(4) 监视 可 以 在 监控 范围 内 发 现 人 脸 ， 而 不 论 其 远近 和 位 置 ， 能 连续 地 跟踪 他 们 ， 
并 将 他 们 从 背景 中 分 离 出 来 ， 将 他 们 的 面 像 与 监控 列表 进行 比 对 。 整 个 过 程 完 全 是 无 须 干 预 
的 、 连 续 的 和 实时 的 。 

(5) 面 像 数 据 压缩 ”能 将 面 纹 数据 压缩 到 84 字 节 ， 以 便 用 于 智能 卡 、 条 形 码 或 其 他 存 
储 空间 有 限 的 设备 中 。 

2. 表情 识别 

人 类 的 语言 分 为 自然 语言 和 形体 语言 两 类 。 面 部 表情 是 形体 语言 的 一 部 分 ， 既 是 人 们 交 
往 的 一 种 手段 ， 也 是 情绪 表达 的 一 种 方式 。 在 人 类 交往 过 程 中 ， 言 语 与 表情 经 党 是 相互 配合 
的 。 同 时 ， 表 情 比 言语 更 能 显示 情绪 的 真实 性 。 有 时 ， 人 们 能 够 运用 言语 来 掩饰 和 和 否定 其 情 
绪 体 验 ， 但 是 表情 则 往往 掩饰 不 住 内 心 的 体验 。 情 绪 作 为 一 种 内 心 体验 ， 一旦 产生 ， 通 常会 
伴随 相应 的 非 言语 行为 ， 如 面部 表情 和 身体 姿势 等 。 一 些 心 理学 家 研究 发 现 , 在 人 类 进行 会 
话 交流 传递 信息 时 ， 言 语 内 容 占 7% ， 说 话 时 的 语调 占 38% ， 而 说 话 人 的 表情 占 55% ， 所 
以 说 表情 在 人 类 交往 活动 中 起 到 了 重要 的 作用 。 

面部 表情 的 分 析 与 识别 是 实现 智能 化 的 人 机 接口 必 不 可 少 的 一 个 重要 方面 ， 是 关于 人 工 
心理 理论 和 情感 计算 研究 的 一 个 重要 组 成 部 分 。 计 算 机 或 机 器 人 如 果 能 够 像 人 类 那样 具有 理 
解 和 表达 情感 的 能 力 ， 并 能 够 自主 适应 环境 ， 这 将 从 根本 上 改变 人 机 关系 ， 使 之 能 够 更 好 地 
为 人 类 服务 。 这 就 是 研究 人 脸 表 情 识别 的 理论 意义 。 另 外 ， 人 脸 表情 识别 的 研究 还 具有 重要 
的 学 术 价值 。 人 脸 是 一 类 具有 复杂 细节 变化 的 非 刚 性 自然 物体 ， 研 究 人 脸 表 情 将 为 解决 其 他 
类 似 复杂 模式 的 识别 及 其 相关 问题 (例如 人 脸 识 别 ) ， 提 供 重 要 的 启示 。 同 时 ， 人 脸 表情 识 
别 的 研究 将 对 推动 认 知 科 学 、 生 理学 、 心 理学 等 相关 学 科 的 研究 有 着 非常 积极 的 影响 。 

在 实际 中 ， 人 脸 表 情 识 别 有 着 广泛 的 应 用 前 景 ， 计 算 机 的 人 脸 表 情 识别 能 力 对 计算 机 视 
觉 系统 、 建 模 和 数据 库 的 发 展 都 有 重要 作用 。 当 前 ， 在 人 机 交互 中 ， 结 合 进 视觉 、 听 觉 以 及 
更 多 的 通道 ， 如 触觉 、 情 感 状态 、 表 情 等 是 必然 趋势 。 未 来 计算 机 的 发 展 将 是 以 人 为 中 心 
的 ， 不仅 计算 机 能 通过 多 个 通道 、 多 种 信息 表现 形式 进行 人 机 对 话 ， 而 且 能 综合 采用 多 个 通 
道 ， 使 人 能 通过 语言 、 文 字 、 图 像 、 手 势 、 表 情 等 与 计算 机 以 自然 、 并 行 、 协 作 的 方式 进行 
人 机 对 话 ， 还 能 通过 整合 来 自 多 个 通道 的 输入 来 捕捉 用 户 的 交互 意图 ， 提 高 人 机 交互 的 自然 
性 和 高 效 性 。 此 外 ， 人 脸 表 情 识 别 也 是 视频 人 脸 图 像 检索 和 低 带宽 人 脸 数据 传输 中 的 关键 技 
术 。 当 在 图 像 流 中 检索 人 的 动作 以 及 情感 状态 的 内 容 时 ， 基 于 视觉 的 人 脸 表情 识别 是 有 用 
的 。 人 脸 数 据 的 低 人 带宽 传 输 ， 可 以 通过 利用 对 人 脸 动 作 的 中 间 层 和 高 层 的 视觉 表示 而 更 高 效 
(例如 ， 传 送 一 个 微笑 和 一 些 可 以 决定 嘴巴 动作 的 参数 ) ， 这 样 在 接收 端 就 可 以 利用 这 些 数 
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据 恢复 出 人 脸 动 作 。 在 人 类 行为 科学 的 研究 方面 ， 人 们 一 直 希 望 能 揭 开 人 脸 表 情 的 神秘 面 
纱 。 由 于 人 工 进行 表情 动作 编码 太 费 时 费力 ， 人 们 和 硕 望 能 借助 计算 机 来 进行 自动 的 人 脸 表 情 
识别 ， 并 利用 其 结果 来 发 现 新 的 表情 ， 以 此 作为 人 类 行为 研究 的 一 个 辅助 手段 。 在 语言 学 
中 , 可 辅助 层 读 ; 在 行为 学 中 ， 能 帮助 人 们 研究 和 建立 交流 中 的 可 信和 度 ; 另外 ,在 其 他 方 
面 ， 如 面部 神经 瘫痪 诊断 、 人 脸 图 像 合 成 与 动画 、 智 能 机 器 人 、 智 能 监控 等 ， 表 情 识别 都 有 
着 重要 的 应 用 价值 。 

3. 人 脸 合 成 

人 脸 是 人 类 相互 交流 的 渠道 ， 在 虚拟 的 计算 机 世界 中 ,虚拟 的 人 脸 就 是 人 脸 表情 和 语言 
的 载体 。 近 几 年 来 ， 人 脸 合 成 技术 作为 计算 机 图 形 学 的 一 个 独特 分 支 越 来 越 受 到 人 们 的 重 
视 。 受 电影 和 录像 中 高 频率 地 出 现 虚 拟人 物 、 廉 价 的 桌面 处 理 能 力 和 人 机 交互 中 需要 一 种 全 
新 的 沉浸 感 的 影响 ， 人 脸 建 模 技 术 的 研究 成 为 近年 来 的 一 个 新 热点 。 

人 脸 建 模 系统 具有 广泛 的 应 用 。 有 些 用 于 娱乐 方面 的 ， 如 电影 的 制作 ; 有 些 使 我 们 的 生 
活 变 得 更 便利 ; 有 些 则 是 用 于 特殊 的 目的 ， 如 电视 电话 技术 。 人 脸 合 成 的 应 用 领域 包括 : 

(1) 人 机 交互 界面 ” 现 有 的 人 机 界面 存在 的 普遍 问题 是 单一 、 采 板 和 专业 性 强 ， 用 户 
往往 要 花费 很 长 的 时 间 才 能 学 会 使 用 一 个 新 系统 。 若 能 给 用 户 提供 熟悉 的 界面 ， 比 如 会 说 
话 、 会 思考 的 人 脸 的 形式 出 现 ， 而 不 是 面 对 单 调 的 键盘 ， 那 么 将 会 提高 设备 的 可 用 性 。 

(2) 虚拟 现实 游戏 一 般 的 游戏 中 的 角色 往往 离 现实 很 还 ， 使 用 了 快速 人 脸 建 模 和 动 
画 技术 的 游戏 ， 可 以 让 人 们 在 虚拟 场景 中 用 自己 的 虚拟 形象 进行 体验 和 交互 。 

(3) 远程 视频 通信 ”直接 传输 视频 图 像 在 现 有 的 网 络 带宽 下 不 仅 不 现实 ， 而 且 不 必要 。 
很 多 视频 压缩 算法 借助 人 脸 造 型 和 动画 的 技术 ， 能 够 快速 地 压缩 人 脸 的 视频 信息 ， 使 其 适合 
在 网 络 上 传输 。 

(4) 医疗 研究 ”医疗 中 脸 部 建 模 的 主要 应 用 是 外 科 手 术 和 心理 领域 。 建 立 好 的 人 脸 模 
型 可 预演 校正 外 科 手 术 和 牙科 诊治 的 过 程 。 不 断 发 展 的 人 脸 建 模 系 统 为 心理 学 家 进行 人 脸 表 
情 的 研究 提供 了 依据 。 心 理学 家 可 以 用 人 脸 运 动 的 计算 机 模型 来 实现 他 们 的 研究 ， 这 比 以 前 
他 们 必须 使 用 刺激 肌肉 来 做 研究 更 方便 。 

(5) 辅助 教学 ”使 用 脸 部 建 模 的 男 一 个 应 用 是 作为 教学 的 工具 。 教 人 正常 发 音 是 一 项 
艰辛 而 又 单调 的 工作 ， 而 当 学 生 在 说 话 和 听力 方面 有 障碍 时 ， 更 是 如 此 。 相 反 ， 学 生 可 以 在 
任意 地 方 ， 跟 着 计算 机 模拟 的 老师 学 习 ， 而 不 必 一 对 一 地 教学 ， 那 将 减少 很 多 工作 量 。 男 
外 ， 将 一 个 学 习 的 过 程 做 成 游戏 的 形式 ， 学 生 的 学 习 积极 性 将 大 大 提高 ， 学 习 过 程 充满 了 乐 
趣 ， 利 用 计算 机 ， 老 师 可 以 省 去 大 量 重复 性 的 工作 ， 并 且 一 次 教学 能 容纳 更 多 的 学 生 。 更 重 
要 的 是 ， 学 生 可 以 随时 随地 的 学 习 。 

(6) 公安 鉴别 ”身份 鉴别 方法 的 不 断 提 高 有 助 于 案件 的 侦破 。 通 过 操作 三 维 人 脸 模型 
适 配 到 目击 者 的 描述 。 这 样 做 的 主要 优点 是 三 维 图 形 给 出 犯罪 分 子 更 精确 的 描述 ， 特 别 是 当 
目击 者 没有 看 到 嫌疑 犯 的 正面 时 ， 该 系统 的 价值 更 能 得 到 体现 。 

C) 考古 人 物 复原 在 考古 研究 中 ,经 常会 出 土 大 量 未 知 身 份 的 颅骨 ， 通 过 计算 机 辅 
助 颅骨 面貌 复原 搁 术 有 助 于 人 物 映 份 、 种 族 的 判定 。 如 2001 年 ， 根 据 出 土 的 老 山 汉 墓 墓 主 
人 的 尸骨 ， 利 用 颅骨 面貌 复原 技术 重建 出 了 老 山 汉 莫 主 人 的 生前 面貌 形象 。 在 2016 年 举行 
的 第 39 届 数 字 考 古国 际会 议 上 ， 北 京师 范 大 学 信息 科学 与 技术 学 院 的 周明 全 教授 团队 利用 
3D 颅 面 复 原 技 术 ， 向 世人 展示 了 1200 多 年 前 唐 高 祖 李 渊 第 五 代 孙 女 李 便 复 原 后 的 容颜 。 
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(8) 电影 特效 和 动画 产品 ”从 早期 的 《玩具 总 动员 》《 真 实 的 谎言 》《 变 脸 》 到 最 近 的 
《 阿 几 达 》 和 《变形 金刚 》 等 电影 ， 都 体现 了 人 脸 造型 和 动画 技术 的 发 展 。 电 影 制作 者 利用 
最 先进 的 技术 ,把 人 的 特点 赋予 到 其 他 的 动物 和 物体 上 ， 给 这 些 角 色 带 来 鲜 活 的 拟人 个 性 。 


1.1.3 人 脸 工 程 学 研究 在 实用 化 过 程 中 的 挑战 
人 脸 是 日 常生 活 中 人 们 最 为 熟知 的 对 象 之 一 ， 相 对 于 一 般 绘 制 对 象 ， 人 脸 具 有 如 下 重要 


特性 : 

(1) 生理 结构 复杂 面部 的 生理 结构 十 分 复杂 ， 包 括 表皮 、 肌 肉 、 上 骨骼 三 层 ， 基 本 形 
状 由 最 内 层 的 骨骼 决定 ， 肌 肉 末 端 附 着 于 骨骼 上 ， 肌 肉 和 表皮 间 由 韧带 相连 。 整 个 头 部 骨 铝 
Wm AKI, HBR. ESA. Wea. Bla. Ble, IRIE A. RAR, JE. UH 
下 晒 骨 、 筛 骨 组 成 。 肌 肉 的 缩 张 驱动 表皮 组 织 产 生 运动 ， 导 致 面部 表现 形式 的 变化 ， 所 有 面 
部 肌肉 运动 综合 作用 就 产生 了 丰富 多 彩 的 表情 。 上 述 生 理解 剖 学 的 原理 是 人 脸 建 模 的 基础 和 
依据 。 

(2) 形态 内 容 丰 富 心理 学 研究 表明 ， 人 脸 能 够 产生 大 约 55000 种 不 同 的 表情 ， 其 中 
有 多 种 能 够 用 人 类 自然 语言 词汇 区 别 开 来 。 

(3) 结构 、 表 情 上 共性 明确 ”所 有 人 的 面部 结构 和 表情 变化 都 有 着 明确 的 相似 性 。 生 
理 结构 上 都 由 口 、 眼 、 和 描 、 耳 、 眉 等 五 官 组 成 ,头颅 结构 也 完全 相似 ; 表情 表达 上 ， 所 有 人 
脸 都 存在 着 共性 ， 甚 至 动态 的 变化 过 程 也 十 分 相似 。 

(4) 个 性 因素 繁多 人 脸 存在 共性 的 同时 ， 又 有 着 千差万别 的 个 性 。 例 如 ， 人 有 眼睛 虹 
膜 近 平 相同 的 概率 是 百 万 分 之 一 ， 人 耳 条 形状 的 差别 更 大 。 不 同 的 人 种 具有 不 同 的 肤色 、 五 
官 特征 。 表 情 的 细节 也 各 有 特点 ， 没 有 两 个 人 的 笑容 完全 相同 。 

(5) 易 受 环境 影响 ”摄取 的 人 物 的 图 像 、 视 频 随 着 周围 光照 环境 的 不 同 ， 差 别 很 大 ; 
因为 面部 的 形状 不 是 严格 的 凸 结构 ， 所 以 有 时 会 出 现 光 照 上 的 遮挡 ， 人 们 有 时 会 佩戴 眼镜 。 
这 些 都 会 给 计算 机 处 理 带 来 很 大 困难 。 

下 面 分 别 从 人 脸 识 别 、 表 情 识别 和 人 脸 合 成 三 个 方面 来 具体 介绍 人 脸 工 程 学 研究 在 实用 
化 过 程 中 的 挑战 。 

1. 人 脸 识 别 的 难点 

目前 人 脸 识 别 的 难点 主要 存在 于 以 下 几 个 方面 : 

1) 光照 变化 是 影响 人 脸 识别 性 能 的 最 关键 因素 ， 对 该 问题 的 解决 程度 关系 着 人 脸 识别 
实用 化 进程 的 成 败 ， 在 人 脸 图 像 预 处 理 或 者 归 一 化 阶段 ， 尽 可 能 地 补偿 乃至 消除 其 对 识别 性 
能 的 影响 。 

2) 成 像 角度 及 成 像 距 离 等 因素 的 影响 ， 即 人 脸 的 姿态 变化 ， 会 使 垂直 于 图 像 平 面 的 两 
个 方向 的 深度 旋转 ， 会 造成 面部 信息 的 部 分 缺失 。 

3) 不 同年 龄 的 人 脸 有 着 较 大 的 差别 。 身 份 证 是 以 前 照 的 ， 在 逃犯 的 照片 也 是 以 前 的 ， 
因此 在 公安 部 门 的 实际 应 用 中 ， 年龄 问题 是 一 个 最 突出 的 问题 。 

4) 采集 人 脸 图 像 的 设备 较 多 ， 主 要 有 扫描 仪 、 数 码 相 机 、 摄 像 机 等 。 由 于 成 像 的 机 理 
不 同 ， 形 成 了 同类 人 上 脸 图 像 的 识别 率 较 高 ， 而 不 同类 别 间 人 上 脸 图 像 的 识别 率 较 低 的 情况 。 随 
着 人 脸 识别 技术 的 发 展 ， 这 一 问题 也 将 逐步 得 到 解决 。 

5) 人 脸 的 图 像 数据 量 巨大 。 目 前 出 于 计算 量 的 考虑 ， 人 脸 定 位 和 识别 算法 研究 大 多 使 
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用 尺寸 很 小 的 灰 度 图 像 。 一 张 64 x64 像素 的 256 级 灰 度 图 像 就 有 4096 个 数据 ， 每 个 数据 有 
256 种 可 能 的 取 值 。 定 位 和 识别 算法 一 般 都 很 复杂 ， 在 人 脸 库 较 大 的 情况 下 ， 计 算 量 很 大 ， 
很 多 情况 下 速度 令 人 难以 忍受 。 而 灰 度 数据 事实 上 是 丧失 了 色彩 、 运 动 等 有 用 信息 的 。 如 细 
要 使 用 全 部 的 有 用 信息 ， 计 算 量 就 更 大 了 。 

另外 ， 人 脸 识 别 还 涉及 图 像 处 理 、 计 算 机 视觉 、 模 式 识 别 以 及 神经 网 络 等 学 科 ， 也 和 人 
脸 的 认识 程度 紧密 相关 。 这 些 因素 使 得 人 脸 识别 成 为 一 项 极 寅 挑战 性 的 课题 。 

2. 表情 识别 的 难点 

人 类 用 肉眼 识别 人 脸 信 息 时 几乎 没有 什么 困难 ， 但 对 计算 机 视觉 系统 来 说 则 非常 不 容 
易 。 用 计算 机 来 分 析 识 别 面部 表情 是 一 个 非常 复杂 的 、 极 富 挑战 性 的 问题 ， 它 的 挑战 表现 
在 : 
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1) 人 脸 是 一 个 塑性 变形 体 而 不 是 刚体 ， 难 以 对 人 脸 表 情 进 行 建 模 。 

2) 表情 对 应 于 人 上 脸 部 骨骼 和 肌肉 的 运动 ， 其 表现 是 细微 多 变 的 ， 可 以 缓和 也 可 以 激 
动 ， 所 以 非常 复杂 。 

3) 光照 对 于 人 脸 图 像 的 影响 也 很 大 ， 同 一 个 人 的 同一 个 表情 图 像 ， 如 果 光 照 不 同 ， 可 
能 得 到 完全 错误 的 分 类 结 

4) 表情 识别 课题 研究 涉及 多 学 科 的 发 展 ， 比 如 图 像 处 理 、 计 算 机 视觉 、 模 式 识 别 、 应 
用 心理 学 、 生 命 科 学 、 认 知 科学 等 ， 而 其 中 的 大 部 分 学 科 都 是 刚刚 兴起 ， 处 于 探索 阶段 ， 理 
论 和 方法 仍 有 待 完善 ; 现 有 的 经 典 的 图 像 处 理 技术 的 局 限 性 也 是 一 个 不 容 忽视 的 问题 。 

此 外 ， 没 有 统一 的 表情 库 ， 也 使 得 难于 对 各 种 识别 方法 进行 比较 和 判断 。 目 前 可 供 研究 
的 数据 中 ， 数 据 库 表 情 带 有 很 强 的 人 为 色彩 ， 而 现实 生活 中 人 们 的 表情 可 能 并 不 夸张 ， 因 而 
实验 室 中 采用 的 方法 将 难以 应 用 到 实际 生活 中 。 

3. 人 脸 合成 的 难点 

在 计算 机 技术 飞速 发 展 的 今天 ， 用 计算 机 便捷 、 通 真 地 模拟 人 脸 的 造型 及 其 运动 仍然 面 
临 着 巨大 挑战 ， 这 主要 有 几 个 方面 的 原因 : 

(1) 人 脸 生 理 结构 复杂 ”人 脸面 部 由 表皮 、 肌 肉 和 骨骼 三 层 结构 构成 ， 其 基本 形状 由 
内 层 的 骨髓 决定， 肌肉 末端 附着 于 骨髓 上， 表皮 与 肌肉 紧密 相连 。 面 部 的 长 相 由 上 骨骼 和 肌肉 
共同 决定 ， 面 部 的 表情 变化 是 骨骼 、 肌 肉 以 及 表皮 和 皮下 层 的 物理 运动 综合 作用 的 结果 。 男 
外 ， 表 皮 的 颜色 和 纹理 的 细微 变化 都 会 影响 人 脸 的 视觉 效果 。 

(2) 人 脸 的 几何 结构 复杂 “人 脸 不 但 生理 结构 复杂 ， 几 何 结构 也 很 复杂 ， 而 且 人 与 人 
之 间 的 几何 结构 均 不 相同 。 人 的 头发 、 嘴 巴 、 耳 东 、 眼 睛 的 几何 结构 很 难 用 一 个 恰当 的 模型 
来 表示 ， 其 几何 数据 也 很 难 获得 ， 人 脸 运 动 时 的 几何 结构 变化 则 更 难 模拟 。 人 脸 的 运动 包括 
刚性 的 人 脸 姿 态 变 化 和 非 刚 性 的 人 脸 器 官 和 肌肉 运动 ， 这 些 由 人 脸 的 皮下 肌肉 和 人 脸皮 肤 的 
动力 学 特性 决定 的 运动 很 难 用 模型 来 表示 。 

(3) 人 脸 表 情 丰 富 。 人们 通常 把 人 脸 大 致 分 成 六 种 表情 : mI. EU. GET. BS. 
难过 和 厌恶 。 而 且 人 的 心境 往往 同时 包含 多 种 情绪 ， 因 此 实际 的 表情 就 更 要 复杂 得 多 。 

(4) 个 性 因素 ”人 脸 在 具有 相同 的 拓扑 关系 的 同时 ， 具 有 非常 明显 的 个 性 因素 ， 如 种 
族 、 形 状 、 颜 色 以 及 纹理 的 不 同 。 除 了 外 观 差异 外 ， 表 情 动作 的 细节 也 是 千差万别 。 

(5) 光照 的 影响 人 脸 的 皮肤 存在 着 皮下 散射 和 折射 ， 眼 睛 的 光照 特性 很 难 获得 ， 人 
脸 的 复杂 几何 以 及 皱纹 、 眉 毛 和 脸 部 细毛 使 人 脸 的 光照 特性 非常 复杂 。 目 前 还 没有 较 好 的 方 






































































































































法 来 直接 测量 人 脸 的 光照 特性 。 

对 于 基于 图 像 的 方法 而 言 ， 建 立 一 个 性 能 优良 的 图 像 库存 在 较 大 难度 。 一 方面 ， 为 了 使 
得 系统 能 够 合成 尽 可 能 多 的 表情 和 姿态 ， 应 该 使 图 像 库 包含 尽 可 能 多 的 图 像样 本 。 但 是 由 于 
图 像 本 身 具 有 较 大 的 数据 量 ， 因 此 大 量 的 图 像 的 存储 需要 消耗 很 多 的 资源 ， 而 且 在 合成 阶 
段 ， 过 多 的 图 像样 本 会 对 搜索 速度 带 来 负面 影响 ， 从 而 难以 达到 实时 要 求 : 为 一 方面 ， 图 像 
库 中 的 样本 过 少 ， 又 使 得 合成 备 选 单元 的 数量 不 足 ， 影 响 最 终 的 合成 质量 。 怎 样 使 数据 库 在 
数量 和 质量 之 间 取 得 某 种 折 中 是 一 个 难题 。 

















1.2. 人 上 脸 工程 学 研究 历程 


计算 机 对 于 面部 的 自动 分 析 和 识别 可 以 分 为 两 个 方面 : 一 是 永久 面部 特征 分 析 ; 二 是 运 
动 面部 特征 分 析 或 者 称 瞬间 面部 特征 分 析 。 以 下 就 分 别 介 绍 这 两 种 面部 分 析 的 起 源 、 发 展 、 
研究 现状 以 及 应 用 等 。 

第 一 种 ， 永 和 久 面部 特征 分 析 ， 主 要 是 针对 面部 的 轮廓 、 五 官 、 纹 理 等 特征 ， 对 应 地 称 为 
面 像 识 别 或 人 脸 自 动 识 别 技术 ， 就 是 利用 计算 机 对 于 输入 的 人 脸 图 像 或 者 视频 ， 首 先 分 析 其 
中 是 否 存在 人 脸 ， 如 果 存 在 人 脸 ， 则 给 出 人 脸 的 位 置 和 大 小 ， 然 后 从 检测 到 的 人 脸 提 取 人 脸 
中 的 有 效 识别 信息 ， 并 将 其 与 已 知人 脸 图 像 库 中 的 人 脸 进 行 比 对 ， 这 是 用 来 辨认 身份 的 一 种 
技术 。 

第 二 种 ， 运 动 面 部 特征 分 析 ， 主 要 就 是 表情 的 分 析 、 编 码 与 识别 。 让 未 来 的 计算 机 会 思 
考 、 有 感情 、 能 说 话 、 可 以 与 人 类 平等 交流 一 直 是 人 类 的 美好 愿望 ， 通 过 计算 机 面部 分 析 ， 
但 愿 有 那么 一 天 ， 计 算 机 能 够 理解 我 们 的 表情 。 当 一 位 老人 在 ATM SiR ae BR ER EA TM 
时 ,字体 尺寸 立刻 加 倍 。 当 一 名 妇女 对 着 购物 中 心 的 旅游 广告 微笑 时 ， 会 促使 设备 打印 出 一 
张 旅游 折扣 表 给 她 。 这 些 不 是 幻想 ， 一 切 都 会 实现 的 。 现 在 许多 人 研究 机 构 都 看 好 表情 机 咒 识 
别 技术 ， 相 信 此 技术 具有 很 大 的 科研 价值 和 商业 价值 。 


1.2.1. 人 脸 识别 


人 脸 识别 的 研究 始 于 20 世纪 60 年 代 末 ， 最 早 的 研究 见于 参考 文献 [44] Bledsoe 以 人 
脸 特 征 点 的 间距 、 比 率 等 参数 为 特征 ， 建 成 了 一 个 半自动 的 人 脸 识 别 系统 。 而 且 早期 人 脸 识 
别 研 究 主要 有 两 大 方向 : 一 是 提取 人 脸 几 何 特征 的 方法 ， 包 括 人 脸 部 件 归 一 化 的 点 间距 离 和 
比率 ， 以 及 人 脸 的 一 些 特征 点 ， 如 了 眼角、 嘴角 、 筋 尖 等 部 位 所 构成 的 二 维 拓扑 结构 ， 二 是 模 
板 匹 配 的 方法 ， 主 要 是 利用 计算 模板 和 图 像 灰 度 的 自 相 关 性 来 实现 识别 功能 。Berto 在 1993 
年 对 这 两 类 方法 做 了 较 全 面 的 介绍 和 比较 后 认为 ， 模 板 匹配 的 方法 优 于 几何 特征 的 方法 。 

目前 的 人 脸 识别 研究 也 主要 有 两 个 方向 : 其 一 是 基于 整体 的 研究 方法 ， 它 考虑 了 模式 的 
整体 属性 ， 包 括 特征 脸 (Eigenface) 方法 、SVD 分 解 的 方法 、 人 脸 等 密度 线 分 析 匹 配方 法 、 
弹性 图 匹配 (Elastic Graph Matching, EGM) 方法 、 隐 马尔 可 夫 模 型 (Hidden Markov Model, 
HMM) 方法 以 及 神经 网 络 的 方法 等 ; 其 二 是 基于 特征 分 析 的 方法 ， 也 就 是 将 人 脸 基 准点 的 
相对 比率 和 其 他 描述 人 脸 脸 部 特征 的 形状 参数 或 类 别 参 数 等 一 起 构成 识别 特征 向 量 。 这 种 基 
于 整体 脸 的 识别 不 仅 保 留 了 人 脸 部 件 之 间 的 拓扑 关系 ， 而 且 也 保留 了 各 部 件 本 身 的 信息 ， 而 
基于 部 件 的 识别 则 是 通过 提取 出 局 部 轮廓 信息 及 灰 度 信息 来 设计 具体 识别 算法 。 有 文献 认 
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为 ， 基 于 整个 人 脸 的 分 析 要 优 于 基于 部 件 的 分 析 ， 理 由 是 前 者 保留 了 更 多 的 信息 ， 但 是 这 种 
说 法 值得 商 椎 ， 因 为 基于 人 脸 部 件 的 识别 要 比 基 于 整体 的 方法 来 得 直观 ， 它 提取 并 利用 了 最 
有 用 的 特征 ， 如 关键 点 的 位 置 以 及 部 件 的 形状 分 析 等 ， 而 对 基于 整个 人 脸 的 识别 而 言 ， 由 于 
把 整个 人 脸 图 像 作 为 模式 ， 那 么 光照 、 视 角 以 及 人 脸 尺 寸 会 对 人 脸 识别 有 很 大 的 影响 ， 因 此 
如 何 能 够 有 效 地 去 掉 这 些 干 扰 非常 关键 。 虽 然 如 此 ， 但 对 基于 部 件 分 析 的 人 脸 识别 方法 而 言 
也 有 困难 ， 其 难点 在 于 如 何 建立 好 的 模型 来 表达 识别 部 件 。 近 年 来 的 一 个 趋势 是 ， 将 人 脸 的 
整体 识别 和 特征 分 析 的 方法 结合 起 来 ， 如 Kin Man Lam 提出 的 基于 分 析 和 整体 的 方法 ，An- 
dreas Lanitis 提出 的 利用 可 变形 模型 (Flexible Model) 来 对 人 脸 进行 解释 和 编码 的 方法 。 

计算 机 人 脸 识别 技术 是 近 20 年 才 逐 渐 发 展 起 来 的 ，20 世纪 90 年 代 成 为 科研 热点 。 近 
年 来 关于 人 脸 识别 的 研究 取得 了 很 大 的 进步 ， 国 际 上 发 表 有 关 论 文 的 数量 大 幅 增 长 ， 仅 
1990 ~ 1998 年 之 间 ， 工 程 索 引 〈Engineering Index, EI) 可 检索 到 的 相关 文献 就 多 达 数 千 篇 。 
美国 电气 电子 工程 师 学 会 (Institute of Electrical and Electronics Engineers, IEEE) 的 PAMI 
(模式 分 析 与 机 器 智能 ) 汇 刊 还 于 1997 年 7 月 出 版 了 人 脸 识 别 专辑 ， 每 年 的 国际 会 议 上 关 
于 人 脸 识 别 的 专题 也 屡屡 可 见 。 特 别 是 ， 随 着 近年 来 深度 学 习 在 模式 识别 等 相关 领域 中 获得 
广泛 的 应 用 ， 研 究 基 于 深度 学 习 的 人 脸 识别 技术 将 是 未 来 一 段 时 间 内 较为 热门 的 研究 方向 。 
由 于 人 脸 识别 实验 所 采用 的 人 脸 数据 库 通 常 不 大 ， 最 常见 的 人 脸 数 据 库 仅 包括 100 幅 左 右 的 
人 脸 图 像 ， 如 MIT 〈 麻 省 理工 学 院 ) Yale (耶鲁 大 学 )、CMU ( 卡 内 基 梅 隆 大 学 ) 等 人 脸 
数据 库 均 为 小 型 库 ， 且 由 于 不 同 的 人 脸 数据 库 之 间 的 输入 条 件 各 异 ， 因 此 不 同 的 识别 程序 之 
间 很 难 进行 比较 。 为 促进 人 脸 识别 算法 的 深入 研究 和 实用 化 ， 美 国 国防 部 发 起 了 人 脸 识 别 技 
术 (Face Recognition Technology, FERET) 工程 ， 它 包括 一 个 通用 人 脸 数 据 库 和 一 套 通用 测 
试 标 准 。 该 FERET 人 脸 数据 库 可 用 于 各 种 人 脸 识别 算法 的 测试 比较 。1997 年 ，FERET 人 脸 
数据 库存 储 了 取 自 1199 个 人 的 14126 幅 图 像 ， 其 中 同一 个 人 的 图 像 差 异 ， 包 括 不 同 表情 、 
不 同 光 照 、 不 同 头 部 姿态 以 及 不 同时 期 (相隔 1 个 月 以 上 ) 拍摄 差异 等 。 如 今 FERET AJ 
数据 库 仍 在 扩充 ， 并 定期 对 各 种 人 脸 识 别 程序 进行 性 能 测试 ， 其 分 析 测 试 结果 对 未 来 的 工作 
起 到 了 一 定 的 指导 作用 。 由 于 FERET 人 脸 数据 库 中 包括 军人 的 图 片 ， 不 能 在 美国 以 外 获得 ， 
因此 其 他 国家 的 研究 只 能 采用 本 地 的 人 脸 库 ， 如 英国 的 Manchester ( 曼彻斯特) 人 脸 数据 
库 。 


1.2.2. 表情 识别 


计算 机 人 脸 表 情 研 究 开 始 于 20 世纪 70 年 代 ，Suwa 和 Sugie 等 人 于 1978 年 对 表情 识别 
做 了 一 个 最 初 的 尝试 ， 他 们 跟踪 一 段 脸 部 视频 动画 ， 得 到 每 帧 图 片上 20 个 关键 点 的 运动 规 
律 ， 将 此 运动 规律 与 预先 建立 的 不 同 表情 的 关键 点 运动 模型 相 比 较 ， 进 行 表 情 分 析 。 当 然 这 
还 只 是 初步 的 尝试 ， 表 情 分 析 、 编 码 与 识别 作为 多 模式 人 机 交互 的 重要 组 成 部 分 而 受到 关 
注 ， 而 真正 发 展 是 在 20 世纪 90 年 代 。 日 本 的 东京 大 学 、 京 都 大 学 、ATR 研究 所 (Advanced 
Telecommunications Research Institute International, ， 国 际 电气 通信 基础 技术 研究 所 ) ; 美国 的 
REHAL H (MT) 媒体 实验 室 、 卡 内 基 梅 隆 大 学 (CMU) 机 器 人 研究 所 、 马 里 兰 
(Maryland) 大 学 、 佐 治 亚 工 学 院 ; 欧洲 的 剑桥 大 学 、 曼 彻 斯 特大 学 等 都 投入 很 多 人 力 物力 
来 进行 这 方面 的 研究 。 

在 日 本 ，20 世纪 90 年 代 初 ， 东 京 大 学 的 Hiroshi Kobayashi 和 Fumio Hara 利用 神经 网 络 





























































































































方法 对 基本 表情 和 混合 表情 进行 机 器 识别 ， 最 终 将 表情 分 解 为 怀 奇 、 恐 惧 、 厌 恶 、 慎 怒 、 高 
兴 和 悲伤 ， 并 将 这 6 个 基本 表情 中 的 2 或 3 个 表情 进行 合成 。 他 们 借助 来 自 眉 毛 、 眼 睛 、 嘴 
三 个 区 域 的 60 个 面部 特征 点 (Facial Characteristic Point, FCP) 的 坐标 来 获取 面部 表情 信 
息 ， 并 将 其 作为 神经 网 络 的 输入 进行 训练 ， 训 练 图 像 来 自用 录像 带 记 录 的 30 个 对 象 的 172 
由 具有 混合 表情 的 面部 图 像 。 最 后 ， 将 识别 结果 与 人 类 对 表情 的 识别 结果 进行 了 比较 ， 已 经 
得 到 70% 相对 较 好 的 识别 率 。 日 本 ATR 媒体 整合 与 通信 研究 实验 室 的 Kenji Mase 提出 利用 
光 流 来 跟踪 运动 单元 ， 从 而 进行 表情 识别 。Mase 的 表情 分 析 思 想 分 从 上 至 下 和 从 下 至 上 两 
个 方向 。J 从 上 至 下 : 假设 脸 部 图 像 被 分 解 成 肌肉 单元 【对 应 于 动作 单元 (Action Unit, 
AU) ] ， 把 肌肉 单元 集合 成 矩形 ， 在 矩形 中 计算 光 流 。 这 种 方法 严重 依赖 于 矩形 的 定位 。@) 
从 下 至 上 : 在 矩形 区 域 中 计算 光 流 ， 量 化 成 4 个 方向 ， 每 个 窗口 提取 了 一 个 主要 的 肌肉 收缩 
的 方向 。 定 义 并 提取 一 个 15 维 的 特征 向 量 用 来 表征 表情 序列 中 光 流 变化 最 活跃 的 点 。 实 验 
中 对 高 兴 、 借 怒 、 厌 恶 、 惊 奇 四 种 表情 进行 了 分 类 ， 用 基于 K 最 近邻 的 方法 ， 识 别 率 达到 
了 80% 。 数 据 来 源 是 作者 本 人 的 知 干 组 各 种 表情 图 像 序 列 : 20 种 作为 样本 数据 (每 种 表情 
5 组 数据 ) 30 组 作为 测试 数据 ， 图 像 大 小 为 256 x 240 像素 。 

在 美国 ， 同 样 是 20 世纪 90 年代， 佐治亚 工学 院 的 Pfan A. Essa 教授 和 MIT 媒体 实验 室 
的 Alex Pentland Z5 ^, ， 用 图 像 序列 作为 输入 的 计算 机 视觉 系统 来 观察 面部 的 运动 单元 。 
视觉 观察 与 感知 是 通过 优化 估计 光 流 方法 与 描绘 面部 结构 的 几何 、 物 理 肌 肉 模型 相 结合 得 到 
的 。 这 种 建 模 方法 产生 了 一 个 随时 间 变 化 的 面部 形状 的 空间 模板 和 一 个 独立 的 肌肉 运动 群 的 
参数 化 表征 。 这 些 肌 肉 运 动 模板 可 以 被 用 于 分 析 、 解 释 与 合成 表情 。 数 据 库 中 图 像 的 大 小 为 
450 x380 (RA, 来源 于 7 个 对 象 的 52 幅 表情 序列 ， 产 生 所 “需要 ”的 表情 ， 与 真正 意义 下 
的 情绪 并 无 关系 。 识 别 的 表情 或 表情 动作 是 : mu. Dew. Ue. DET. 识别 率 达 
到 了 98% 。 马 里 兰 大 学 的 Yaser Yacoob 和 Larry Davis, Black 和 Yacoob 的 表情 识别 方法 都 是 
基于 面部 动作 编码 系统 (Facial Action Coding System, FACS) 编码 的 。Yacoob 和 Davis 集中 
于 分 析 与 嘴 、 眼 睛 和 眉毛 边缘 的 相关 运动 ， 把 光 流 的 方向 场 量化 成 8 个 方向 。 同 时 建立 了 一 
个 Beginning-Apex-Ending 时 间 模 型 ， 规 定 每 种 表情 的 整个 过 程 以 中 性 表情 作为 开始 和 结束 ， 
并 定义 了 变化 中 每 个 阶段 的 开始 与 结束 的 规则 。 识 别 方法 使 用 简化 的 FACS 规则 来 识别 六 种 
表情 。 他 们 的 数据 库 来 自 32 人 的 105 种 各 种 表情 ， 图 像 大 小 为 120 x 160。 对 各 种 表情 的 识 
别 率 分 别 是 : 高 兴 为 86% , 惊奇 为 94% ， 厌 恶 为 92% , TRE 92% , WRH 86% ， 悲 伤 为 
80% 。Mark Rosenblum 和 Yaser Yacoob 等 人 用 人 径 向 基 哨 数 网 络 (Racial Basis Function Net- 
work, RBFN) 结构 ， 学 习 脸 部 特征 与 人 类 情绪 之 间 的 相关 性 ， 在 最 高 一 级 识别 情绪 ， 在 中 
间 一 级 决定 脸 部 特征 运动 ， 在 最 低 一 级 恢复 运动 方向 。 特 征 提取 中 不 关注 脸 部 的 肌肉 运动 模 
型 ， 而 是 关注 特征 部 件 边 缘 的 运动 。 此 系统 的 识别 率 达到 了 88% 。 

在 欧洲 ， 剑 桥 大 学 计算 机 实验 室 的 Rana El Kaliouby 和 Peter Robinson 的 研究 主要 针对 : 
自动 识别 用 户 实时 的 精神 状态 (包括 认 知 状态 ) 的 接口 ， 以 及 发 展 表 情 在 人 机 交互 中 的 洪 
在 用 途 。 首 先 截 取 视 频 流 中 的 头 肩 序列， 接着 对 图 像 进行 运动 单元 分 析 ， 最 后 利用 HMM 分 
类 器 分 析 头 部 运动 和 表情 。 实 验 测 试 在 207 个 图 像 序列 中 进行 ， 其 中 包括 90 个 基本 表情 和 
107 个 混合 表情 ， 系 统 对 于 6 种 基本 表情 的 识别 率 达 到 了 86% ， 而 混合 表情 的 识别 率 为 
719% 。 

曼彻斯特 大 学 的 图 像 科 学 与 生物 工程 系 的 David Cristinacce 和 Tim Cootes 采用 AdaBoost 
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算法 和 哈 尔 小 波 (Haar Wavelet) 变换 来 提取 面部 特征 ， 该 算法 无 论 对 于 高 分 辨 率 还 是 低 分 
辩 率 的 图 像 ， 都 有 稳定 的 人 脸 定 位 性 能 。 

在 国内 ， 北 京 科技 大 学 王 志 良 教授 首次 提出 了 人 工 心理 的 概念 ， 对 人 的 心理 活动 〈 包 
括 情感 、 意 志 、 人 性格、 创造 等 ) 进行 人 工 模 拟 , 确立 了 人 工 心理 理论 结构 体系 (目的 、 法 
则 、 研 究 内 容 、 研 究 方法 、 应 用 范围 ) ， 并 把 这 一 理论 应 用 于 情感 机 器 人 、 商 品 选 购 系统 等 
实际 生活 中 ， 取 得 了 较 好 的 效果 ， 目 前 该 课题 组 正在 情感 建 模 与 计算 、 表 情 的 分 析 与 合成 等 
方面 进行 深入 探讨 。 此 外 ,哈尔滨 工业 大 学 、 中 国 科学 院 计算 技术 研究 所 、 中 国 科学 院 自动 
化 研究 所 也 开展 了 相关 的 研究 。 


1.2.3 ARER 


人 脸 建 模 与 动画 的 研究 开始 于 20 世纪 70 年 代 初 ，1972 Æ, Parker 使 用 摄影 测绘 技术 得 
到 人 脸 各 种 表情 的 多 边 形 网 格 模 型 ， 对 于 不 同 的 表情 的 网 格 模型 进行 几何 插值 来 产生 人 
脸 动画 ， 这 种 方法 称 为 关键 表情 插值 法 。 关 键 表情 插值 法 需要 建立 每 一 种 关键 表情 的 网 格 模 
型 ， 关键 表 情 可 能 有 很 多 种 ， 因 此 使 用 这 种 方法 很 不 方便 。 

1974 年 ，Parker 完成 了 第 一 个 参数 化 的 人 脸 模 型 ，1982 年 又 对 参数 化 人 脸 模 型 进行 了 
改进 。 参 数 化 模型 的 基本 思想 是 通过 少量 控制 参数 来 生成 各 种 不 同 模型 的 人 脸 和 人 脸 的 各 种 
表情 ， 这 样 就 可 以 方便 地 建立 人 脸 模 型 、 产 生 人 脸 动 画 。 理 想 的 参数 化 模型 只 需要 选择 合理 
的 参数 值 就 能 够 生成 任何 可 能 的 人 脸 和 任何 可 能 的 表情 ， 实 际 的 参数 化 模型 还 远 远 不 能 达到 
这 个 目标 。 用 于 人 脸 建 模 与 动画 的 参数 可 以 分 成 两 类 ， 即 构造 参数 与 表情 参数 。 这 两 种 参数 
在 某 种 程度 上 已 有 重合 的 部 分 但 是 在 概念 上 还 是 有 区 别 的 。 构 造 参数 ， 包 括 下 应 宽度 、 前 
额 形状 、 上 鼻梁 的 长 度 和 宽度 、 脸 颊 形状 等 ， 用 于 产生 人 脸 的 各 种 形状 。 表 情 参数 ， 包 括 眼 瞪 
张 开 、 丑 毛 拱 起 、 下 巴 旋 转 、 眼 睛 凝视 等 ， 用 于 产生 人 脸 的 各 种 表情 。 

1980 年 ，Platt 提出 了 第 一 个 基于 物理 的 肌肉 控制 人 脸 模 型 (Physically Base Muscle-con- 
trolled Facial Model) 。 在 该 模型 中 ， 人 脸 表 面皮 肤 的 多 边 形 网 格 点 之 间 通 过 模拟 弹 得 相互 连 
接 。 这 些 网 格 点 同时 也 与 人 脸 模型 的 底层 骨骼 结构 之 间 通 过 模拟 肌肉 相连 。 模 拟 肌 肉 具 有 弹 
性 ， 能 够 产生 收缩 力 。 将 肌肉 力作 用 在 弹性 网 格 上 ， 可 以 产生 各 种 表情 。 使 用 的 肌肉 动作 是 
按照 Ekman 和 Friesen 提出 的 面部 动作 编码 系统 (FACS) 中 的 动作 单元 (AU) 来 设计 的 。 

1985 ^E, Bergeron 和 Lachapelle 的 动画 影片 《Tony de Peltrie》 是 人 脸 建 模 与 动画 历史 上 
的 一 个 里 程 碑 ， 该 影片 是 第 一 个 采用 人 脸 表 情 和 语音 动画 讲述 故事 的 计算 机 动画 片 。 

1987 ^E, Waters 提出 了 一 种 新 的 肌肉 模型 ， 该 模型 包含 两 类 肌肉 : 一 类 是 固定 在 骨骼 
上 ， 另 一 端 连接 在 皮肤 上 的 、 可 以 拉 伸 的 线性 肌 ; 另 一 类 是 绕 着 中 心 点 放大 或 缩小 的 括 约 
WL. Waters 仍然 采用 Platt 的 质点 弹 敌 模 型 来 模拟 皮肤 和 肌肉 ， 但 是 Waters 模型 中 的 肌肉 具 
有 独立 于 底层 骨骼 结构 的 方向 〈 向 量 ) 性 质 ， 这 些 向 量 使 得 模拟 的 肌肉 与 特定 人 脸 的 拓扑 
无 关 。 每 个 肌肉 都 有 一 个 影响 区 域 ， 肌 肉 的 影响 随 着 骨骼 上 的 固定 点 的 径 疝 距离 的 增加 而 减 
>, Waters 模型 的 肌肉 控制 参数 也 是 基于 脸 部 动作 编码 系统 来 设计 的 。 脸 部 运动 是 骨骼 、 肌 
肉 、 皮 下 组 织 和 皮肤 共同 作用 的 结果 ， 其 运动 机 理 非常 复杂 。 与 肌肉 模型 不 同 ,， 伪 肌肉 模型 
不 精确 模拟 人 脸 的 解剖 细节 ， 而 是 通过 少量 控制 参数 来 模拟 人 脸 的 基本 动作 。 

1998 年 ，Magnenat-Thalmann 等 提出 的 抽象 肌肉 动作 模型 就 是 一 种 伪 肌 肉 模型 。 抽 象 肌 
肉 动作 与 脸 部 动作 编码 系统 的 动作 单元 类 似 ,但 是 不 完全 相同 ， 脸 部 动作 编码 系统 的 动作 单 
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元 可 以 作为 构造 抽象 肌肉 动作 的 指南 。 每 一 个 抽象 肌肉 动作 ， 都 是 在 人 脸 的 特定 区 域 上 ， 模 
拟 一 个 肌肉 或 一 组 密切 相关 的 肌肉 。 抽 象 肌 肉 动作 模型 可 以 在 底层 抽象 肌肉 的 动作 级 ， 也 可 
以 在 高 层 表 情 级 ,设置 参数 产生 脸 部 动作 ， 表 情 是 通过 成 组 抽象 肌肉 动作 来 实现 的 。 

人 脸 建 模 与 动画 历史 上 的 男 一 个 里 程 碑 是 Pixar 公司 制作 的 短 动画 片 《Tin Ioy》， 该 影 
中 的 小 男孩 Bily 采用 了 与 Waters 模型 类 似 的 肌肉 模型 来 产生 脸 部 动画 和 表情 。Billy BH E. 
一 共 使 用 了 43 个 线性 肌 和 4 个 括约肌 ， 参 照 脸 部 动作 编码 系统 手册 中 的 插图 确定 了 这 些 肌 
肉 的 位 置 。 下 闫 和 眼 瞪 的 运动 具有 特殊 性 ， 这 些 区域 的 皮肤 在 运动 时 始终 保持 与 下 闫 骨 或 眼 
球 接触 ， 表 现 为 旋转 或 弧 形 而 不 是 线性 运动 。 为 了 模拟 这 种 运动 ， 又 定义 了 一 种 新 的 肌肉 类 
型 一 一 旋转 肌 ， 为 了 方便 地 产生 各 种 动作 和 表情 ， 开 发 了 称 为 宏 肌 肉 的 高 层 控制 。 一 个 宏 肌 
肉 可 以 控制 若干 个 底层 肌肉 。 一 共 为 Billy 开发 了 33 个 宏 肌 肉 。 

采用 上 述 参数 化 模型 、 肌 肉 模型 或 者 伪 肌 肉 模型 ， 要 生成 高 度 真 实感 人 脸 动 画 都 比较 困 
难 。 为 了 生成 一 小 段 人 脸 动 画 ， 通 常 需要 设置 并 协调 几 十 个 动画 控制 参数 。 通 过 捕获 表演 者 
的 脸 部 运动 ， 并 将 其 转换 为 动画 控制 参数 ， 可 以 减少 设置 动画 控制 参数 的 工作 量 ， 并 生成 高 
度 真 实感 人 脸 动 画 。 

1990 4E, Williams 首先 提出 了 表演 驱动 的 人 脸 动 画 技术 。 首 先 通 过 三 维 激光 扫描 构造 带 
有 纹理 图 的 三 维 人 脸 模 型 ， 接 着 在 表演 者 脸 部 贴 上 千 干 特殊 反光 标志 ， 拍 摄 并 自动 跟踪 表演 
者 的 脸 部 运动 ， 驱 动人 脸 模型 产生 高 度 真实 感人 脸 动 画 。 

1992 年 ，Kalra 等 提出 的 有 理 Be zier 自由 变形 方法 也 是 一 种 伪 肌 肉 模型 。 在 脸 部 肌肉 的 
影响 区 域 周围 定义 一 个 长 方 体 控 制 框架 ， 通 过 移动 控制 点 或 改变 控制 点 的 权 因子 可 以 模拟 该 
肌肉 的 运动 ， 使 得 对 应 的 表面 区 域 产生 拉 升 、 挤 压 、 扩 展 、 压 缩 等 变形 。 有 理 Be zier 自由 
变形 产生 的 效果 与 自然 的 肌肉 运动 非常 接近 ， 而 移动 控制 点 或 改变 权 因 子 却 比 设 定 肌肉 运动 
要 容易 。 

从 1993 ~ 1995 年 ，Lee 等 进一步 改进 了 基于 物理 肌肉 模型 。 在 原来 基于 物理 的 肌肉 模 
型 的 基础 上 ， 增 加 了 皮肤 层 和 颅骨 层 ， 将 一 般 人 脸 模 型 按照 激光 扫描 数据 进行 变形 ， 并 增加 
了 脖子 、 眼 睛 、 眼 上 险 、 牙 齿 等 辅助 器 官 ， 综 合 考虑 了 组 织 弹簧 力 、 线 性 肌肉 力 、 分 段 线性 肌 
肉 力 、 体 积 保持 力 、 颅 骨 约 束 力 等 多 种 力 ， 以 及 节点 的 质量 、 位 置 、 速 度 、 加 速度 之 间 的 关 
系 ， 用 迭代 的 方法 求解 方程 。Lee 的 肌肉 模型 到 目前 为 止 是 效果 最 好 也 是 最 复杂 的 肌肉 模 
型 。 

1998 4E, Pighin 等 进一步 改进 了 Parker 提出 的 关键 表情 插值 法 。 用 五 台 照 相机 同时 拍摄 
人 脸 不 同 角度 的 视图 ， 在 多 个 视图 上 手工 标注 少量 的 对 应 点 ， 利 用 对 应 点 自动 恢复 每 个 视图 
的 照相 机 参数 及 对 应 点 的 三 维 位 置 ， 利 用 对 应 点 的 三 维 位 置 对 一 般 人 脸 模型 进行 变形 ， 得 到 
特定 人 的 三 维 人 脸 的 模型 ， 用 纹理 映射 的 方法 生成 更 加 具有 真实 感 的 人 脸 。 对 同一 个 人 的 不 
同 表情 重复 上 述 步 又 ， 可 以 得 到 不 同 表 情 的 三 维 模型 ， 对 不 同 表 情 的 三 维 模型 进行 几何 插 
值 ， 就 可 以 得 到 中 间 表 情 ， 产 生 表情 过 渡 的 人 脸 动 画 。 同 年 ，Guenter 等 进一步 改进 了 Wil- 
liams 提出 的 表演 驱动 的 人 脸 动 画 技术 。 

1999 4E, Noh 等 提出 的 径 向 基 函 数 变形 方法 是 一 种 新 的 伪 肌 肉 模型 。Noh 等 将 脸 部 
变形 的 最 小 单元 称 为 几何 变形 单元 (Geometry Deformation Element, GDE) ， 每 个 GDEF 包括 一 
个 控制 点 、 控 制 点 周围 的 影响 区 域 、 影 响 区 域 边缘 上 的 定位 点 和 径 向 基 函 数 。 从 控制 点 出 
发 ,位 于 指定 距离 内 的 网 格 点 都 在 影响 区 域 中 ， 受 到 控制 点 移动 的 影响 。 有 边 距 离 和 欧 氏 距 
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离 两 种 距离 度量 方法 ， 分 别 用 于 人 脸 不 同 部 位 。 对 于 一 个 GDE， 将 控制 点 和 定位 点 统称 为 
特征 点 ， 影 响 区域 中 的 所 有 点 的 位 置 都 可 以 通过 径 向 基 薄 数 (RBF) 插值 公式 来 计算 ， 已 知 
特征 点 的 新 旧 位 置 ， 通 过 求解 线性 方程 组 可 以 求 出 特征 点 的 系数 ， 从 而 计算 出 影响 区 域 中 其 
余 网 格 点 的 新 位 置 。 

2001 年 ，Breton 等 提出 了 参数 化 模型 与 肌肉 模型 相 结合 的 混合 方法 ， 对 眼睛 模型 、 眼 
瞪 、 下 频 和 脖子 采用 参数 化 方法 ， 对 眉毛 、 前 额 、 嘴 巴 、 脸 颊 采用 肌肉 模型 。 

近年 来 ， 基 于 图 像 的 建 模 技 术 由 于 其 成 本 低廉 、 操 作 简单 ， 成 为 一 种 发 展 较为 迅速 的 人 
脸 合成 技术 ， 它 的 主要 原理 是 通过 采集 物体 的 二 维 图 像 数据 ， 根 据 计算 机 图 形 学 中 相关 的 算 
法 计算 出 物体 的 三 维 信息 ， 并 根据 这 些 三 维 信息 完成 目标 的 三 维 重 构 。 如 2009 4E, Ansari 
等 利用 形变 面部 网 格 模型 构造 出 包 仿 纹理、 轮廓、 颜色 、 阴 影 、 光 照 等 信息 的 三 维 人 脸 模 
型 。2011 年 ，Li 等 基于 自动 提取 的 曲线 和 形状 控制 函数 生成 包含 真实 皱纹 的 人 脸 三 维 模型 ， 
使 获得 的 人 脸 具 有 真实 感 。 而 随 着 智能 手机 的 计算 能 力 的 不 断 增强 ， 研 究 者 们 还 开发 了 基于 
移动 端的 人 脸 合成 应 用 。 如 2014 E, Choi 等 开发 出 一 个 能 够 在 手机 端 上 运行 的 应 用 程序 ， 
它 可 以 根据 用 户 提 供 的 一 张 照 片 ， 采 用 主动 外 观 模型 ， 自 动 生成 一 个 用 户 自己 的 三 维 化 身 形 
象 ， 并 合成 面部 表情 。 

紧 跟 国际 上 的 发 展 ， 国 内 也 于 20 世纪 90 年 代 中 期 开展 了 这 方面 的 研究 。 西 安 电子 科技 
大 学 的 郑 飞 等 人 (1998 年 ) 基于 图 像 的 建 模 与 绘制 技术 ， 提 出 了 正面 头像 提取 轮廓 线 ， 并 
过 体 元 造型 合成 人 脸 三 维 模型 的 方法 。 这 种 方法 的 造型 速度 较 传 统 的 造型 方法 有 较 大 的 提 
高 。 哈 尔 滨 工业 大 学 的 受 洁 等 人 在 人 脸 建 模 、 人 脸 表 情 、 层 动 、 纹 理 映射 等 方面 做 出 了 一 些 
成 绩 。 他 们 研究 了 人 在 发 音 时 的 层 动 模型 以 及 韵母 口 型 库 的 生成 技术 ,使 每 一 个 汉字 的 发 音 
都 对 应 着 相应 的 口 型 。 在 人 脸 模 型 的 特定 化 方面 ， 提 出 交互 式 编辑 算法 ， 通 过 模拟 人 脸皮 肤 
的 务 弹 特性 ， 人 允许 模拟 者 在 交互 方式 下 ， 将 一 般 人 脸 几 何 模型 和 预先 提供 的 特定 人 脸 多 方向 
图 像 之 间 进 行 特征 校准 ， 进 而 得 到 精确 反映 特定 人 脸 正 侧面 几何 特征 的 特定 人 脸 三 维 模型 ; 
还 提出 了 曲面 磨 光 以 及 多 方向 纹理 映射 算法 ， 从 多 个 方向 的 特定 人 脸 图 像 上 选择 纹理 信息 映 
射 到 三 维 模型 上 ， 以 减少 纹理 的 扭曲 变形 ， 从 而 使 合成 的 结果 更 加 真实 和 自然 。 

浙江 大 学 的 梅 丽 等 人 用 半自动 方法 来 达到 特征 匹配 的 目的 ， 用 手工 编辑 建立 的 二 维 对 应 
网 格 ， 得 到 初始 人 脸 外 形 ; 采用 和 鲁 棒 的 最 大 似 然 立体 匹配 算法 自动 匹配 出 稠密 的 对 应 点 ， 重 
建 出 表示 人 脸 的 散乱 三 维 数据 点 团 ; 最 后 利用 这 些 稠密 的 三 维 数据 点 ， 去 迭代 矫正 和 自 适 应 
细 分 手工 编辑 的 三 维 初始 人 脸 网 格 而 得 到 结果 模型 。 该 算法 无 须 昂 贵 的 设备 ， 又 有 较 强 的 真 
实感 效果 。 在 人 脸 动画 方面 ， 他 们 用 多 分 辨 率 样 条 技术 产生 无 颖 的 人 脸 纹理 镶 典 图 ， 纹 
理 映 射 后 生成 高 度 真 实感 的 、 能 以 任意 视线 方向 观察 的 特定 人 脸 ; 进而 ， 通 过 组 合 特定 人 脸 
的 肌肉 向 量 的 运动 、 变 形 模型 ， 组 合 出 特定 人 脸 的 各 种 表情 ， 该 方法 能 在 廉价 的 PC 平台 上 
KA, 快速、 简单 ， 而 且 具 有 一 定 真实 感 。 

北京 工业 大 学 尹 宝 才 等 人 采用 自动 调整 与 人 机 交互 相 结 合 的 方法 实现 特定 人 脸 模型 匹 
配 。 在 调整 完 模型 形状 之 后 ， 应 用 三 个 方向 的 面部 图 像 进行 纹理 映射 ， 生 成 不 同 视点 方向 的 
面部 图 像 。 应 用 合成 面部 图 像 与 输入 面部 图 像 最 佳 匹 配 的 方法 进行 输入 面部 图 像 的 头 部 转动 
方向 估计 ”” 。 通 过 对 面部 曲面 结构 和 面部 各 器 官 分 布 结构 的 分 析 ， 建 立 了 面部 曲面 的 几何 
模型 和 模拟 人 脸面 部 曲面 的 分 片 二 次 直 积 形 Bezier 参数 曲面 计算 格式 应 用 此 模型 和 算法 ， 依 
据 面部 表情 和 汉语 口 型 特征 ， 实 现 基 本 表情 和 口 型 的 选 型 ” 。 此 外 ， 还 研究 了 空间 网 格 的 
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‘elise ea (RBF) 插值 方法 。 
1.2.4 ”相关 学 术 资 源 


人 脸 研 究 需 要 用 到 大 量 的 人 脸 图 像 ， 人 脸 数 据 库 是 人 脸 识别 算法 研究 、 开 发 、 评 测 的 基 
础 ， 具 有 重要 的 意义 。 目 前 国际 上 常用 的 人 脸 数 据 库 有 : 

1) MIT 人 脸 数据 库 : 由 麻 省 理工 学 院 媒体 实验 室 创建 ， 包 含 16 位 志愿 者 的 2592 张 不 
同 姿态 、 光 照 和 大 小 的 面部 图 像 。 

2) CMU PIE 人 脸 数据 库 : 由 美国 卡 内 基 梅 隆 大 学 创建 ，PIE 就 是 Pose (姿态 ) Mumi- 
nation (光照 ) 和 Expression (KIE) 的 缩写 ,包括 来 自 68 个 志愿 者 的 41368 张 面部 图 像 ， 
其 中 包括 了 每 个 人 的 13 种 姿态 条 件 、43 种 光照 条 件 和 4 种 表情 下 的 照片 ， 这 些 姿态 和 光照 
变化 图 像 也 是 在 严格 控制 的 条 件 下 采集 的 。 现 有 的 多 姿态 人 脸 识别 的 文献 基本 上 都 是 在 
CMU PIE 人 脸 数据 库 上 测试 的 。 

3) Yale 人 脸 数据 库 : 由 耶鲁 大 学 计算 视觉 与 控制 中 心 创建 ， 包 括 15 位 志愿 者 的 165 张 
图 片 ， 包 含 光 照 、 表 情 和 姿态 的 变化 。 此 外 ， 耶 鲁 大 学 还 创建 了 用 于 光照 和 姿态 问题 的 建 模 
与 分 析 的 人 脸 数 据 库 ， 包 括 了 10 AR] 5850 幅 多 姿态 、 多 光照 的 图 像 。 其 中 的 姿态 和 光照 变 
化 的 图 像 都 是 在 严格 控制 的 条 件 下 采集 的 ， 主 要 由 于 采集 人 数 较 少 ， 该 人 脸 数 据 库 的 进一步 
应 用 受到 了 比较 大 的 限制 。 其 网 址 为 http: //cvc. yale. edu/projects/yalefaces/yalefaces. html 。 

4) FERET 人 脸 数据 库 : 由 美国 国防 部 的 FERET 项 目 创建 的 ， 包含 14051 张 多 姿态 、 
光照 的 灰 度 人 脸 图 像 ， 是 人 脸 识别 领域 应 用 最 广泛 的 人 脸 数据 库 之 一 ， 其 中 的 多 数 人 是 西方 
人 ， 每 个 人 所 包含 的 人 脸 图 像 的 变化 比较 单一 。 

5) AR 人 脸 数 据 库 : 由 西班牙 巴塞 罗 那 计算 机 视觉 中 心 建立 ， 包 含 116 人 的 3288 幅 图 
像 。 采集 环境 中 的 摄像 机 参数 、 光 照 环 境 、 摄 像 机 距离 等 都 是 严格 控制 的 。 其 网 址 为 
http ://rv11. ecn. purdue. edu/v1/ ARdatabase/ ARdatabase. html 。 

6) ORL 人 脸 数 据 库 : 由 剑桥 大 学 AT&T 实验 室 创 建 ， 包 含 40 人 的 400 张 面部 图 像 ， 部 
分 志愿 者 的 图 像 包 括 了 姿态 、 表 情 和 面部 饰物 的 变化 。 该 人 脸 数据 库 在 人 脸 识 别 研究 的 早期 
经 常 被 人 们 和 采用， 但 由 于 变化 模式 较 少 ， 多 数 系统 的 识别 率 均 可 以 达到 90% 以 上 ， 因 此 进 
一 步 利 用 的 价值 已 经 不 大 。 其 网 址 为 http: //www. uk. research. att. con/facedatabase. html, 

7) AFLW 人 脸 数据 库 : 由 奥地利 格拉 医 技 术 大 学 计算 机 图 形 与 视觉 研究 所 创建 ， 是 一 
个 在 自然 光 条 件 下 拍摄 的 不 同 姿态 、 视 角 、 种 族 、 年 龄 、 性 别 的 大 规模 人 脸 数据 库 。AFLW 
人 脸 数据 库 包 括 约 2.5 万 张 人 脸 图 片 ， 其 中 59% 为 女性 ，41% 为 男性 ， 大 部 分 图 片 是 彩色 ， 
只 有 少 部 分 是 灰 度 图 片 。 数 据 库 中 每 个 人 脸 上 都 标注 了 21 个 特征 点 ， 共 计 约 38 万 个 特征 
点 。 该 数据 库 适用 于 人 上 脸 识别 、 人 脸 检 测 、 人 脸 对 齐 等 方面 的 研究 。 其 网 址 为 https: // 
Irs. icg. tugraz. at/research/aflw , 

8) MORPH 人 脸 数 据 库 : 由 美国 北 卡 罗 来 纳 大 学 威 尔 明 顿 分校 创 建 ， 数 据 库 里 包含 了 
12938 人 16 ~77 岁 共 52099 张 人 脸 图 片 ， 每 个 人 拥有 知 干 张 人 脸 图 片 。 图 片 类 型 为 彩色 ， 
4 BEEN 120 x126 像素 ， 主 要 可 用 于 人 脸 迁 移 的 研究 。 其 网 址 为 htps: //ebill. unew. edu/ 
C20231. ustores/ web/store main. jsp? STOREID =4, 

9) PFOl 人 脸 数 据 库 : 由 韩国 浦 项 科技 大 学 创建 ， 包 含 103 人 的 1751 张 不 同 光 照 、 姿 
态 和 表情 的 面部 图 像 ， 志 愿 者 以 韩国 人 为 主 。 
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10) XM2VTS 人 脸 数据 库 : 由 英国 萨 里 大 学 创建 ， 包 含 了 295 人 在 4 个 不 同时 间 段 的 图 
像 和 语音 视频 片断 。 在 每 个 时 间 段 ， 每 人 被 记录 了 2 个 头 部 旋转 的 视频 片断 和 6 个 语音 视频 
片断 。 

11) BANCA 人 脸 数 据 库 : 该 人 脸 数据 库 是 欧洲 BANCA. 计划 的 一 部 分 ， 包含 了 208 A, 
每 人 12 幅 不 同时 间 段 的 面部 图 像 。 

12) CAS-PEAL 中 国人 脸 图 像 数 据 库 : 由 中 国 科学 院 计 算 技术 研究 所 - 银 晨 科技 面 像 识 
别 联合 实验 室 负责 建立 ， 共 采集 并 整理 了 1040 位 志愿 者 的 99450 幅 人 脸 图 片 。CAS-PEAL 
人 脸 图 像 数据 库 中 的 所 有 图 片 分 为 姿态 变化 、 表 情 变化 、 饰 物 变 化 、 光 照 变化 、 背 景 变化 、 
距离 变化 、 时 间 跨 度 变 化 等 7 种 变化 模式 子 库 ， 这 7 种 变化 模式 中 又 以 姿态 (Pose) 变化 、 
表情 (Expression) 变化 、 饰 物 (Accessory) 变化 和 光照 (Lighting) 变化 4 种 为 主 〈 故 简称 
为 PEAL) 。 各 个 变化 模式 子 库 均 可 以 与 姿态 变化 子 库 进行 组 合 ， 以 满足 研究 工作 中 的 不 同 

际 上 ， 关 于 人 脸 或 表情 识别 方面 的 国际 会 议 有 很 多 ， 其 中 影响 比较 大 的 有 : 

1) CVPR: 计算 机 视 党 与 模式 识别 国际 会 议 (International Conference on Computer Vision 
and Pattern Recognition) 。 一 年 一 度 的 CVPR 被 公认 为 计算 机 视觉 和 模式 识别 领域 的 国际 最 高 
级 别 会 议 。 

2) FGR: 人 脸 与 姿态 自动 识别 国际 会 议 (International Conference Automatic Face and 
Gesture Recognition), 1995 年 在 瑞士 的 苏 黎 士 举办 第 一 届 人 脸 与 姿态 自动 识别 国际 研讨 会 
(IWAFGR) , 1996 年 在 美国 举办 了 第 二 届 ， 改 为 [EEE 的 人 脸 与 姿态 自动 识别 国际 会 议 (FG 
或 FCR) ， 之 后 每 两 年 举办 一 届 ， 至 今 已 举办 了 七 届 ， 内 容 越 来 越 丰 富 而 深入 ， 影 响 越 来 越 
广泛 。 

3) ICPR: 模式 识别 国际 会 议 (nternational Conference on Pattern Recognition) 。ICPR 是 
模式 识别 领域 最 具 权威 的 国际 会 议 ， 每 两 年 举办 一 届 。2004 年 举办 的 第 17 届 模 式 识别 国际 
会 议 组 织 了 人 脸 认 证 竞赛 ， 是 国际 上 公认 的 客观 评价 人 脸 识别 最 新 技术 研究 状况 的 竞赛 。 

4) ICCV: IEEE 计算 机 视觉 国际 会 议 (IEEE International Conference on Computer 
Vision) ,是 计算 机 视觉 领域 国际 最 高 级 别 会 议 。 

5) SIGGRAPH: 计算 机 图 形 和 交互 技术 国际 会 议 (International Conference on Computer 
graphics and interactive techniques) 。 

6) ECCV: 欧洲 计算 机 视觉 会 议 (European Conference on Computer Vision) 。 

7) ICM: 多 模式 接口 国际 会 议 (International Conference on Multimodal Interfaces) 。 

8) ACCV: 亚洲 计算 机 视觉 会 议 (Asian Conference on Computer Vision) 。 

9) VISAPP: 计算 机 视觉 理论 与 应 用 国际 会 议 (International Conference on Computer Vi- 
sion Theory and Applications ) 。 

10) ACH: 情感 计算 及 智能 交互 国际 会 议 (International Conference on Affective Computing 
and Intelligent Interaction) ， 每 两 年 举办 一 届 。 

11) ICBA: 国际 生物 特征 识别 国际 会 议 (International Conference on Biometric Authenti- 
cation) ， 每 两 年 举办 一 届 。 

此 外 ， 还 有 许多 IEEE 的 研讨 会 ， 比 如 IEEE Workshop on Face Processing in Video, IEEE 
Workshop on Applications of Computer Vision, IEEE Workshop on Computer Vision and Pattern 
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Recognition for Human Computer Interaction, IEEE Workshop on Real-Time Vision for HCI 等 。 

随 着 国内 相关 研究 的 开展 ， 我 国 也 成 功 举办 了 一 些 国内 会 议 ， 如 人 体 生 物 特征 识别 进展 
国际 学 术 会 议 既 中 国生 物 识 别 学 术 会 议 ， 从 2000 年 开始 ， 每 年 举办 一 届 。 

目前 国际 上 开展 相关 研究 的 组 织 

e MIT 媒体 实验 室 : http://www. media. mit. edu/research 。 

e MIT 人 工 智 能 实验 室 : http://www. csail. mit. edu/index. php. 

e CMU 机 器 人 研究 所 : http://www. ri. cmu. edu/。 

e 德国 人 工 智能 研究 中 心 : http://www. dfki. de/web, 

此 外 ， 美国 马里 兰 大 学 、 佐 治 亚 工 学 院 ， 欧 洲 的 剑桥 大 学 、 曼 彻 斯 特大 学 ,日 本 的 东京 
大 学 和 ATR 研究 所 等 ， 都 投入 了 很 多 人 力 物力 来 进行 这 方面 的 研究 。 
国际 上 从 事 相 关 领 域 研 究 的 专家 有 : 

e William T. Freeman Professor 

MIT 人 工 智能 实验 室 ， 研 究 领 域 为 计算 机 视觉 。 他 的 网 址 是 http://www. ai. mit. edu/ 
people/wtf/ 。 

e Thomas S. Huang (HAA) 教授 

1963 年 在 MIT 获得 科学 博士 学 位 以 后 ， 先 后 在 美国 MIT, Purdue 和 UIUC (美国 伊利 诺 
斯 大 学 香槟 分 校 ) 从 事 教 学 与 图 像 处 理 、 模 式 识别 、 计 算 机 视觉 和 人 机 交互 等 方面 的 研究 
工作 ， 现 任 美国 伊利 诺 斯 大 学 香槟 分 校 Beckman 研究 院 图 像 实验 室 主任 。 他 的 网 址 是 
http://www. beckman. uiuc. edu/profiles/faculty/t-huangl. html, 

e Alex Pentland (Sandy) 

目前 工作 于 MIT 媒体 实验 室 。 他 的 网 址 是 http: //web. media. mit. edu/ ~ sandy/ , 

€ Takeo Kanade 

工作 于 CMU 机 器 人 研究 所 ， 主 要 研究 方向 为 计算 机 视觉 、 虚 拟 现实 、 移 动机 器 人 等 。 
他 的 网 址 是 www. ri. emu. edu/people/kanade. takeo. html, 

e Ying-Li Tian 

工作 于 IBM 计算 机 视觉 研究 小 组 ， 研 究 领 域 为 人 类 视觉 和 表情 识别 。 他 的 网 址 是 
http ;// www. research. ibm. com/ecvg/people/yingli. html 或 http: //www-2. cs. emu. edu ~ yl- 
tian/ o 

e Jeffrey Cohn 

匹兹堡 大 学 的 心理 学 教授 ， 同 时 是 CMU 机 器 人 研究 所 的 兼职 教授 。 他 主要 基于 多 学 科 
结合 来 开展 自动 分 析 表 情 方法 的 研究 ， 是 CMU 机 器 人 研究 所 人 脸 小 组 的 成 员 。 他 的 网 址 是 
http :// www. pitt. edu/ ~ jeffcohn/ , 

e Kenji Mase 

名 古 屋 大 学 的 信息 技术 中 心 的 教授 ， 主 要 研究 领域 为 : 人 机 交互 智能 体 、 玩 具 的 交互 界 
面 、 可 穿戴 /移动 / 普 适 计算 等 。 他 的 网 址 是 http ;//mase. itc. nagoya-u. ac. jp/ ~ mase/。 

汤 晓 鸥 教授 

中 国 科学 院 深 圳 先进 技术 研究 院 副 院 长 ， 香 港 中 文大 学 信息 工程 系 主任 、 教 授 。 汤 晓 了 网 
教授 1996 年 于 麻 省 理工 学 院 获得 博士 学 位 ，1997 年 任 香港 中 文大 学 教授 ，2001 年 创办 多 媒 
体 实验 室 。2004 年 ， 汤 晓 哆 领导 的 计算 机 视觉 研究 组 开发 了 一 个 名 为 DeepID 的 深度 学 习 模 
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型 ,在 LEW 数据 库 上 获得 了 99. 15% 的 识别 率 ， 这 也 是 有 史 以 来 首次 超过 9996 的 LFW 识别 
率 。 他 的 网 址 是 http : //mmlab. ie. cuhk. edu. hkv 。 


1.3 人 脸 工 程 学 的 未 来 研究 方向 


L 人 脸 识别 的 未 来 研究 方向 

由 于 人 脸 识别 任务 的 复杂 性 ， 并 且 人 脸 是 一 个 非 刚体 的 模型 ， 容 易 受 到 光照 、 年 龄 、 踪 
挡 物 的 影响 ， 所 以 任何 一 种 简单 的 方法 都 很 难得 到 100% 的 识别 率 ， 因 此 人 脸 识 别 的 未 来 研 
究 方向 主要 集中 在 以 下 两 个 大 的 方向 上 : 

1) 多 信息 的 融合 。 具 体 来 说 ， 一 方面 是 局 部 和 整体 的 融合 。 局 部 特征 的 精确 定位 和 提 
取 ， 尤 其 是 具有 判别 力 的 局 部 特征 的 确定 是 一 个 难以 解决 的 问题 ， 因 此 发 展 局 部 特征 的 确定 
和 提取 的 方法 并 和 整 脸 处 理 方法 相 结合 ， 这 将 是 提高 识别 率 的 一 个 方向 。 允 一 方面 是 加 强 局 
部 图 像 特 征 和 局 部 面部 特征 的 结合 与 联系 ， 这 也 将 对 识别 率 产 生 积极 的 影响 。 再 一 方面 是 利 
用 多 分 类 器 和 多 信息 〈 特 征 ) 融合 ， 减 少 总 体 识别 率 对 单 分 类 器 的 依赖 ， 同 时 减 小 单 分 类 
器 的 复杂 度 。 

2) 消除 光照 和 姿态 的 影响 。 一 方面 可 以 利用 统计 知识 和 先 验 知识 ， 加 强 对 图 像 类 间 变 
化 和 类 内 变化 的 研究 ， 通 过 图 像 合成 和 图 像 重 建 技术 消除 光照 和 姿态 的 影响 。 男 一 方面 就 是 
3D 人 脸 模 型 的 重建 ， 利 用 3D 模型 识别 消除 光照 和 姿态 的 影响 ， 这 也 是 提高 人 脸 识别 率 的 
途径 和 人 脸 识 别 的 研究 方向 。 

2. 表情 识别 的 未 来 研究 方向 

1) 由 于 人 脸 表情 变化 表现 在 图 像 上 会 产生 多 种 不 同 的 变化 ， 如 五 官位 置 、 形 状 ， 以 及 
细微 的 皮肤 纹理 、 阴 影 等 ， 因 此 将 多 种 特征 混合 起 来 ， 可 以 最 大 限度 地 利用 表情 变化 产生 的 
信息 ， 更 完整 地 表示 表情 ， 混 合法 将 成 为 特征 获取 中 的 一 个 重点 。 

2) 在 目前 的 人 脸 表情 识别 系统 中 ， 往 往 是 对 比较 夸张 的 表情 进行 分 析 和 识别 。 但 在 实 
际 的 生活 中 ， 很 多 表情 可 能 是 混合 的 表情 ， 或 者 并 不 是 很 夸张 的 表情 。 对 混合 表情 、 表 情 的 
强度 方面 ， 目 前 的 研究 还 非常 缺乏 。 已 经 有 研究 针对 表情 的 强度 方面 做 了 一 些 尝 试 ， 但 研究 
仍然 处 于 初级 阶段 。 

3) 人 脸 表 情 会 受到 多 种 因素 的 影响 ， 如 光照 与 姿态 的 变化 、 脸 部 阻挡 等 。 针 对 脸 部 出 
现 阻 挡 的 情况 ， 有 一 些 初步 的 研究 ,但 与 实际 情况 还 有 一 定 距离 。 在 目前 的 研究 中 ， 针 对 光 
照 和 姿势 的 变化 ， 一 般 都 采用 三 维 人 脸 建 模 的 方法 来 解决 。 但 目前 三 维 人 脸 建 模 的 技术 尚 不 
能 达到 自动 建 模 的 要 求 ， 同 时 精度 也 受到 一 定 的 限制 。 另 外 ， 特 征 分 解 是 解决 这 类 问题 的 一 
种 新 方法 ， 但 这 方面 的 研究 刚刚 出 现 ， 有 待 进一步 发 展 。 

4) 近年 随 着 机 带 学 习 领 域 的 发 展 ， 越 来 越 多 的 机 器 学 习 方 法 被 用 于 表情 的 识别 和 分 
类 ， 并 取得 了 较 好 的 结果 ， 这 也 应 是 未 来 识别 方法 的 主流 。 但 同时 人 的 表情 是 有 一 定 的 心理 
学 规律 可 循 的 ， 是 否 可 以 将 心理 学 和 生物 学 知识 与 机 带 学 习 的 方法 相 结合 来 提高 分 类 的 性 
能 ， 这 是 有 符 研 究 的 问题 。 

3. 人 脸 合 成 的 未 来 的 研究 方向 

1) ERE: 人 脸 表 情 是 众所周知 的 ， 目 前 三 维 人 脸 表 情 动 画 普 遍 存 在 不 自然 、 不 逼真 
等 问题 ， 人 脸 表 情 动 画 的 各 真性 直接 影响 着 该 技术 的 推广 应 用 。 
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2) 丰富 性 : 人 脸 表 情 复 杂 、 多 样 ， 研 究 更 有 效 、 更 通 真 地 制作 各 种 人 脸 表 情 动 画 的 技 
术 是 人 脸 动画 获得 成 功 应 用 的 关键 所 在 。 

3) 直观 性 : 三 维和 人 脸 几 何 结构 复杂 ， 且 表情 的 表现 涉及 解剖 学 、 生 物力 学 等 领域 ， 因 
此 控制 一 个 表情 的 表现 难度 其 大 ， 人 研究 直观 、 方 便 地 控制 任意 人 脸 表 情 动画 是 人 脸 表 情 合 成 
动画 研究 的 焦点 。 


1.4 ”本 书 的 内 容 


本 书 的 内 容 分 为 三 部 分 。 

第 1 部 分 从 第 1 ~3 章 ， 主 要 介绍 人 脸 工 程 学 的 理论 基础 ， 概 述 了 人 脸 工 程 学 、 人 文 
科学 、 心 理学 、 脑 科学 及 文学 艺术 中 对 人 脸 的 研究 。 

第 2 部 分 ， 从 第 4 ~8 章 ， 主 要 介绍 了 人 脸 工 程 学 研究 中 用 到 的 技术 与 算法 ， 包 括 图 像 
处 理 技术 、 检 测 跟踪 技术 、 特 征 提取 与 识别 算法 和 人 脸 合 成 技术 。 

第 3 部 分 ， 从 第 9 ~11 章 ， 介绍 了 几 个 应 用 系统 实例 ， 包 括 静 态 人 脸 识 别 原型 系统 、 带 
态 表情 识别 系统 、 动 态 表 情 识别 系统 、 人 脸 合 成 与 表情 合成 系统 。 
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$23 人 脸 工程 学 人 研究 的 学 科 基 础 





早 在 几 百 年 前 ， 人 类 学 、 心 理学 等 学 科 就 开始 了 对 人 脸 的 研究 ， 并 上 且 取得 了 一 定 的 成 
果 。 人 文科 学 、 心 理学 及 脑 科学 是 人 脸 工程 学 的 基础 学 科 ， 其 关于 人 脸 研究 的 理论 成 果 是 人 
脸 工程 学 研究 的 理论 基础 。 本 章 简单 介绍 了 人 类 学 、 心 理学 、 脑 科学 等 学 科 关 于 人 脸 的 研 
究 。 


2.1 人 类 学 对 人 脸 的 研究 
































2.1.1 达尔 文 之 前 的 研究 


查尔斯 :贝尔 (Charles Bell) 是 一 位 在 生理 学 方面 有 着 很 多 发 现 的 学 者 ， 并 因此 获得 
了 很 大 的 声誉 。 他 的 《表情 的 剖析 与 哲学 (Anatomy and Philosophy of Expression) 从 1806 
~1844 年 再 版 三 次 。 书 中 生动 地 描述 了 各 种 各 样 的 情绪 和 图 示 ， 并 阐明 了 表情 与 呼吸 之 间 
存在 的 密切 关系 : 在 激烈 的 呼 气 运 动 中 ， 两 眼 周围 的 各 条 肌肉 ,为 了 防止 血液 压迫 此 处 纤细 
的 器 官 而 进行 不 随意 的 收缩 。 但 是 对 于 各 种 不 同 的 情绪 下 ， 为 什么 各 种 不 同 的 肌肉 会 进行 如 
此 动作 ? 比如 ， 陷 入 悲哀 或 忧郁 之 中 的 人 ， 为 什么 眉毛 内 端 向 上 厨 起 ， 而 嘴角 却 向 下 拉 ， 贝 
尔 先 生 没有 加 以 说 明 ， 书 中 也 没有 明确 的 说 明 。 

M. 37 (M. Moreau) 于 1807 年 发 表 了 对 于 脸 部 肌肉 运动 方面 的 种 种 见解 、 观 察 和 论 
Wr. 但 是 在 哲学 方面 的 解释 却 没 有 做 什么 工作 。 例 如 : 他 解释 反感 这 个 脸 部 动作 时 说 :“ 这 
种 运动 是 若 若 思索 和 潜心 思考 某 一 问题 时 的 表情 中 最 为 明显 的 一 个 标志 。 如 果 从 肌肉 的 位 置 
来 考察 ， 即 人 在 受到 真正 的 压迫 而 产生 激动 或 者 受到 过 于 强烈 的 刺激 时 ， 其 面部 表情 的 主要 
特征 是 紧缩 或 者 凝集 。 在 情绪 方面 也 是 这 样 ， 就 好 像 一 个 人 在 感情 方面 为 了 缩小 芍 慢 或 厌恶 
的 印象 ， 也 是 要 进行 肌肉 的 收缩 或 者 说 缩 紧 而 使 身体 迅速 复原 。” 这 种 解说 表明 了 莫 罗 试图 
阐明 各 种 表情 的 意义 和 起 源 。 

1862 年 ， 达 奇 恩 博士 (Dr. Duchenne) 的 《人 相 的 机 制 (Mécanisme de la Physionomie 
Humaine )》 运 用 电学 分 析 法 (Means of Electricity) 来 阐述 脸 部 肌肉 的 运动 ， 并 附 有 生动 的 
照片 作为 说 明 图 解 。 他 的 观点 一 方面 比较 准确 地 叙述 了 脸 部 肌肉 ， 但 是 另 一 方面 对 于 表情 的 
肌肉 运动 ， 他 主要 解说 了 单一 的 肌肉 的 收缩 ， 对 各 肌肉 之 间 密 切 的 联系 ， 比 如 说 为 什么 情绪 
对 某 些 肌肉 起 收缩 作用 ， 而 对 另 一 些 肌肉 却 不 起 作用 ， 完 全 没有 进行 解释 。 基 中， 他 对 于 面 
部 发 生 的 表情 运动 进行 说 明 :“ 造 物 主 固然 不 至 于 专门 就 肌体 的 必要 处 所 而 用 意 ， 但 是 即使 
是 像 激情 那样 最 容易 消失 的 特征 ， 他 如 果 想 在 人 类 的 面部 上 稍 做 标记 ， 那 么 无 论 是 一 个 还 是 
多 个 ， 也 都 是 得 自 于 神 的 意志 ( 如果 可 以 这 样 说 ) 并 随心 所 和 欲 地 变动 这 些 肌 肉 。 如 果 像 这 
样 把 人 类 的 相貌 一 次 造成 ， 那 么 为 了 使 其 普遍 永恒 ， 仅 仅 将 那些 常常 通过 肌肉 收缩 就 能 表现 
人 类 感情 的 本 能 的 能 力 赋予 所 有 人 类 就 足够 了 。” 通 过 叙述 ， 我 们 可 以 知道 达 奇 恩 博士 没有 
清楚 地 意识 到 进化 原理 。 
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1865 年 ， 法 国 著名 解剖 学 家 皮 埃 尔 . 格拉 特 莱特 (Pierre Gratiolet) 所 车 的 《人 相 及 表 
情 运动 (De la Physionomie et des Mouvements d’ expression) 》 出 版 。 这 本 书 中 最 为 值得 注意 
的 就 是 书 中 所 运用 的 材料 都 来 源 于 珍贵 的 观察 记录 ， 他 总 是 能 用 简洁 明了 的 语句 表达 看 似 复 
林 的 学 说 。 在 书 中 论述 到 :“ 凡 是 感觉 、 想 象 以 及 最 高 尚 并 且 最 抽象 的 思想 ， 如 果 与 之 相关 
的 感情 不 起 作用 的 话 ， 那 么 就 不 会 起 作用 ; 并 且 这 些 感情 能 够 直接 地 在 外 部 各 个 组 织 的 所 有 
范围 内 ， 以 共 感 的 、 和 象征 的 或 者 比喻 的 方式 表现 出 来 。 这 两 种 现象 就 是 我 根据 自己 所 注意 到 
的 所 有 事实 中 得 出 的 结论 。 这 些 外 部 各 个 组 织 中 ， 无 论 是 什么 ， 都 恰好 和 它们 各 自 的 直接 动 
作 一 样 ， 通 过 各 自 所 具备 的 独特 的 动作 方式 来 表现 感情 。 但 是 格拉 特 莱特 在 书 中 将 遗传 习 
惯 和 某 种 程度 内 的 个 体 习 惯 轻描淡写 一 笔 带 过 ， 对 于 许多 体态 和 表情 不 能 给 予 恰当 的 说 明 ， 
有 的 竟然 什么 解说 都 没有 。 同 时 ， 他 明确 地 认为 ， 各 个 物种 是 分 别 创造 出 来 的 ， 这 一 点 ， 他 
和 其 他 论述 表情 的 学 者 的 观点 是 一 样 的 。 

1867 年 ， 皮 德里 特 博 士 (Dr. Piderit) 出 版 了 《 构 拟 人 相 学 体系 ( Wissenschaftliches 
System der Mimik und Physiognomik )》， 书 中 有 两 句 话 似乎 可 以 简单 地 概括 全 书 的 内 容 。 他 写 
道 :“ 表 情 的 肌肉 运动 ， 一 半 与 想象 的 对 象 有 关 ， 一半 与 想象 上 的 感官 印象 有 关 ， 在 这 个 命 
题 之 中 ， 包 含 着 理解 一 切 表 现 的 肌肉 运动 的 关系 。 他 还 论述 到 : “表情 运动 ， 主 要 表现 于 
脸 部 无 数 的 可 以 运动 的 肌肉 ， 其 理由 在 于 : 一 是 运动 这 些 肌 肉 的 神经 ， 从 最 近 的 精神 器 官 之 
处 发 出 ; 另 一 个 是 这 些 肌 肉 最 有 力 地 支持 各 种 感觉 器 官 。 

1855 年 ， 赫 伯 特 : 斯 宾 塞 (Herbert Spencer) 所 著 的 《心理 学 原理 (Principles of Psy- 
chology)) XTREME F: ERR, MARN, PMAR E, GETA, MER, 
AERE 5 AE fec MEIST 5] SC HZ 9 Fr 5 ERRA. EE CAL TTT EER, SSE 
致 肌肉 组 织 的 一 般 紧 张 ， 如 咬牙 切 齿 RASPES HOARE. ede MAAN IE, eee 
现形 态 ， 比 起 屠杀 猎物 时 所 表现 的 动作 稍 显 微 弱 。 

除了 斯 宾 塞 , 所 有 有 关 表 情 的 著述 者 似乎 都 坚信 : 物种 〈 自 然 ， 人 也 包括 在 内 ) 是 以 
各 自 目前 状态 的 原状 而 产生 的 。 

关于 表情 的 简单 论述 ， 在 各 种 著作 中 很 多 ， 在 此 不 一 一 列举 ; 对 于 人 类 表情 的 研究 ， 影 
响 最 大 的 就 是 达尔 文 ，2. 1. 2 节 将 介绍 他 的 研究 方法 和 结论 。 


2.1.2 ”达尔文 对 表情 的 研究 


达尔 文 提出 人 与 动物 的 表情 都 是 进化 的 产物 。 

达尔 文 在 当时 研究 表情 是 比较 困难 的 ， 因 为 表情 运动 往往 极其 轻微 ， 而 且 性 质 又 极其 短 
和 暂 ， 其 中 的 差异 固然 可 以 明白 地 被 认识 ， 但 差异 究竟 存在 于 什么 地 方 ， 却 是 不 可 能 明白 阐述 
的 。 比 如 ， 杂 有 眼看 见 某 种 深度 情绪 时 ， 目 击 者 的 同情 心 便 极 强 地 兴奋 起 来 ， 以 至 于 忘却 了 应 
该 进行 顷 密 细致 的 观察 ， 有 时 候 儿 乎 不 能 进行 续 密 的 观察 。 为 了 尽力 获得 稳定 的 基础 ， 并 且 
远离 俗 见 ， 在 确定 相貌 的 特定 运动 以 及 身体 的 表情 实际 上 能 够 在 何 种 程度 上 表现 某 种 精神 状 
态 时 ， 达 尔 文 发 现 用 下 面 的 这 些 方法 时 最 为 有 用 。 

第 一 ， 观 察 幼儿 。 如 贝尔 所 说 ， 幼 儿 通 过 “非常 力 ” 表 现 许 多 情绪 ， 但 是 等 到 他 们 长 
大 成 年 后 ， 我 们 人 类 的 表情 之 中 就 会 有 某 一 种 “已 失去 了 幼年 时 期 能 使 表情 测 涌 而 出 的 纯 
粹 单纯 的 源 果 了 。 

第 二 ， 应 对 精神 病 患 者 进行 研究 。 因 为 精神 病 患 者 最 容易 陷入 极 强 的 激情 之 中 ， 并 且 没 
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有 任何 约束 地 表露 出 来 。 

第 三 ， 像 达 奇 恩 博 士 一 样 ， 对 一 位 面部 不 太 敏 感 的 老人 的 面部 上 做 了 实验 。 在 老人 的 面 
部 肌肉 上 使 用 电疗 刺激 产生 各 种 表情 ， 并 将 这 些 表情 加 以 扩大 摄影 ， 不 加 说 明 地 给 不 同年 龄 
层 、 不 同性 别 的 受过 教育 的 人 看 ， 然 后 向 他 们 询问 这 位 老人 是 由 于 何 种 情绪 或 感情 而 导致 面 
部 动作 。 一 方面 对 于 其 中 的 几 种 表情 ， 儿 乎 所 有 的 人 都 可 以 认 出 照片 上 老人 的 表情 ， 但 男 一 
方面 ， 还 有 两 三 张 照 片 ， 每 个 人 的 答案 十 分 不 同 ， 这 种 事实 表明 ， 达 尔 文 所 确信 的 人 类 很 容 
易 被 自己 的 想象 力 所 迷 惑 这 一 点 。 因 为 对 于 特殊 的 两 三 张 照片 ， 我 们 会 通过 阅读 照片 的 说 明 
来 理解 相对 应 的 表情 ， 如 果 没 有 说 明 ， 我 们 会 毫 无 疑问 地 被 迷惑 。 

第 四 ， 达 和 尔 文 希 望 能 从 那些 被 称 为 “极为 续 密 的 观察 者 ”的 一 流 的 画家 和 雕刻 家 那里 
获得 巨大 的 帮助 。 但 是 他 通过 许多 名 作画 像 和 照片 ， 也 只 有 一 两 全 有 所 收获 ， 因 为 作为 美术 
作品 是 以 表现 美 为 主要 目的 ， 而 面部 的 收缩 会 破坏 美感 。 

第 五 ， 确 定 一 直 以 来 经 党 没有 证 据 断 言 的 同一 表情 和 体态 是 否 可 以 普遍 流行 于 所 有 人 
类 ， 尤 其 是 那些 与 欧洲 人 接触 其 少 的 人 种 。 相 貌 或 身体 的 同一 种 运动 表示 不 同人 种 的 同一 情 
绪 时 ， 会 以 多 大 的 准确 性 推定 这 种 表情 是 真正 的 表情 ， 即 所 说 的 与 生 俱 来 的 或 是 本 能 的 表 
情 。 每 个 人 幼年 时 代 所 习 得 的 习惯 表情 或 体态 ， 在 不 同 的 人 种 间 大 约 是 不 同 的 ， 就 像 他 们 的 
语言 一 样 。 

达尔 文 在 1867 年 初 将 下 列 问题 印刷 分 发 ， 并 且 附 上 一 个 要 求 ， 即 不 要 凭借 记忆 而 应 根 
据 实 地 观察 。 它 们 是 : 

1) 惊 悍 时 是 否 表现 为 瞪 大 眼睛 、 张 大 嘴巴 、 高 扬 眉 毛 ? 

2) 着 耻 时 ， 如 果 能 通过 脸色 来 发 现 ， 是 否 能 使 脸 变 红 ? 尤其 是 这 种 红色 会 延伸 到 身体 
下 部 的 何 种 程度 ? 

3) CRRA OT PERRIN, AEP. BEE. PSK. THEY? 

4) 考虑 问题 或 解决 疑难 时 ， 是 否 感 额 或 皱 紧 眼 瞪 下 皮 ? 

5) 意气 诅 形 时 ， 是 否 口角 下 沉 、 丑 内 端 抬 起 ， 是 否 是 由 法 国人 所 谓 的 “悲哀 肌 ” 这 种 
肌肉 运动 所 致 ”这 种 状态 的 眉毛 ， 内 端 稍稍 膨胀 、 微 侨 ， 前 额 中 央 虽 然 也 会 引起 横 锌 ， 但 不 
像 惊异 时 眉毛 高 扬 而 使 整个 前 额 都 引起 皱纹 。 

6) 精神 愉快 时 ， 是 否 表现 为 眼下 及 了 眼 周围 的 皮肤 稍稍 起 皱纹 、 口 角 稍稍 向 内 凹 进 ， 并 
HOSUIR A8 H? 

7) MARRAN, Aet EE MITTEN In, JEERÉERTVALZ E? 

8) 坚强 或 硕 固 时 ， 表 情 是 否 表现 为 口 紧 闭 、 额 头 下 浮 并 微微 紧 感 ? 

9) 茂 视 他 人 时 ， 是 否 嘴唇 微微 突起 、 鼻 中 呼出 些许 气息 ? 

10) 厌恶 时 是 否 下 层 向 下 、 上 层 微 抬 ， 同 时 发 出 像 刚 开始 时 呕吐 或 口中 做 唾弃 时 所 具有 
的 呼吸 ? 

11) 极度 恐怖 时 ， 表 现 方式 是 否 和 欧洲 人 一 样 ? 

12) 笑 到 极 处 时 ， 是 否 会 笑 出 眼泪 ? 

13) 人 表现 自己 无 法 阻止 某 事 或 自己 不 能 做 某 事 时 ， 是 否 肘 向 内 曲 、 双 手 向 外 张 开 ， 并 
且 双 眉 上 扬 ? 

14) BFA IOI, AEST. "IESU 

15) 罪过 、 狭 独 、 嫉 妒 等 各 种 表情 ， 我 无 法 分 辨 时 ， 你 能 分 辨 清楚 吗 ? 
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PON AEN, FER WRAL, 表示 肯定 时 ， 是 否 头 左右 摇动 ? 

达尔 文 在 调查 过 程 中 一 再 强调 : 观察 从 来 没有 与 欧洲 人 接触 过 的 土著 人 的 表情 最 重要 ， 
但 只 是 就 表情 这 一 点 概括 出 来 的 意见 却 价 值 不 大 ， 并 且 凭 借 记忆 得 出 的 结论 也 非常 不 可 信 。 
对 于 在 何 种 情绪 或 精神 状态 下 对 相貌 进行 一 定 的 确实 描述 ， 并 和 叙述 与 之 相关 而 引起 的 事情 ， 
就 非常 有 价值 了 。 

达尔 文 对 于 从 不 同 观察 者 那里 得 到 的 36 个 答案 〈 涉 及 一 些 完全 不 同 而 尚未 开化 的 民 
族 ) ， 发 现 了 下 面 的 重要 意义 : 即 同一 精神 状态 ， 全 世界 的 人 都 是 用 显著 的 同一 性 表现 出 
来 ,况且 事实 本 身 也 极 有 趣味 ， 它 可 以 作为 所 有 人 类 的 身体 构造 与 精神 素质 之 间 有 密切 关系 
的 有 力 证 据 。 


2.2 文学 艺术 中 对 人 脸 的 研究 
































2.2.1 人 脸 的 美学 研究 


文学 艺术 都 是 人 类 社会 实践 反映 的 产物 ， 人 作为 社会 实践 的 主体 ， 更 应 该 是 文学 艺术 反 
映 的 主题 。 所 以 人 物 在 中 、 西 方 美术 史 中 始 终 占有 很 高 的 地 位 ， 是 美术 创作 的 主要 对 象 。 无 
论 是 雕塑 、 绘 画 ， 无论 在 中 国 还 是 西方 ， 人 物 作品 都 有 着 悠久 的 历史 和 丰厚 的 传统 ， 都 有 着 
不 少 的 经 典 传世 之 作 。 其 中 ， 可 以 见 到 证 代 的 帝王 、 将 相 、 圣 贤 、 文 人 ， 也 可 见 到 古人 信奉 
的 佛 、 神 ， 还 有 现实 生活 中 的 人 物 百 态 

要 完成 一 件 好 的 人 物 作 品 ， 人 脸 的 刻画 起 着 至 关 重 要 的 作用 。 无 论 中 国画 还 是 西洋 画 ， 
都 要 求 画 者 对 脸 部 基本 结构 有 所 认识 ， 甚 至 要 具备 有 关头 脸 部 的 解放 知识。 下面 就 介绍 一 下 
美术 技法 中 所 涉及 的 人 脸 的 研究 。 

























































































l. 脸型 特征 

中 国画 传统 技法 常 把 头 形 分 为 “ 八 格 "， 各 用 一 个 汉字 代表 如 “ 田 ”“ 国 "”“ 由 ”“ 用 ” 
“ 目 ”“ 甲 ”“ 申 ”“ 风 ” ( 见 图 2-1)。 田 一 一 脸面 扁 方 ; B aren 由 一 一 上 额 尖 ， 
FEA; 用 额 方正 ,下 巴 宽大 ; 目 一 盖头 形 狭 长 ; 甲 一 一 上 额 方 ， 下 巴 尖 ; 申 一 一 上 
BUF 分 为 10 种 类 型 ， 从 各 种 不 同 的 角 








度 、 动 势 或 发 型 头饰 来 看 ， 应 概括 为 各 种 不 同 的 基本 形 。 以 上 这 些 方法 ， 都 是 把 头 部 比较 复 
林 的 轮廓 ， 概 括 为 比较 简单 的 几何 图 形 ， 并 分 析 其 长 宽 比 例 和 形体 特征 。 

2. 五 官 比例 

中 国 古 有 “三 庭 五 眼 ” 之 说 ， 即 长 三 庭 ， 横 五 眼 ， 如 图 2-2 Pr. ZE: 发 际 线 到 眉毛 
= 眉毛 到 锚 孔 = 鼻孔 到 下 巴 的 距离 ; 五 眼 : 右 外 耳 孔 至 右 眼 外 角 之 长 = 右 眼 长 = 眼 间距 离 = 
ERK = 左 外 耳 孔 至 左 眼 外 角 之 长 。 这 种 简单 的 概括 ， 是 成 人 的 一 般 比 例 关 系 。 儿 童 与 成 人 
不 同 ， 年 龄 越 小 ， 眼 的 位 置 越 偏 下 ， 两 眼 间 的 距离 越 大 。 

上 述 的 比例 关系 ， 只 是 头 的 正面 平视 的 情况 ， 因 此 只 能 是 观察 一 个 人 五 官 比例 的 参考 ， 
画 者 可 以 根据 三 庭 五 眼 的 基本 规律 ， 在 共性 中 找 出 人 与 人 的 形象 特征 ， 画 出 人 与 人 的 千 差 万 
别 。 

3. 

(1 









































脸 部 的 解剖 结构 
) 骨骼 
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发 际 线 
1/3 上 庭 
- ISK 
1/8 3 
i 一 鼻 底 线 
| 1/3 FE 
| TER 
| 1/5! 1/5 ! 1/5 v/s! 1/5 
à | = / 1/5 
五 眼 
图 2-2 三 庭 五 眼 





1) 脑 鼎 部 骨骼 一 一 额 骨 、 顶 骨 、 匡 骨 、 枕 骨 。 

2) 颜面 部 骨骼 一 一 鼻骨 、 额 骨 、 上 颌 骨 、 下 颌 肯 。 

(2) 脸 部 肌肉 

1) 咀嚼 肌 一 一 咬 肌 、 里 肌 ， 其 作用 是 拉 下 颌 骨 向 上 ， 作 咀嚼 动作 。 此 肌 昌 不 属 表情 肌 ， 
但 咬 肌 隆起 可 表现 咬 紧 牙关 、 切 齿 痛 恨 的 神情 。 

2) 表情 肌 一 一 表情 肌 薄 而 户 平 ， 没 有 肌 腹 ， 两 端 或 一 端 附着 于 皮肤 ,收缩 时 ， 产 生 脸 
部 的 各 种 表情 。 表 情 肌 大 部 分 群集 于 眼 、 盘 、 口 的 周围 。 

3) 额 肌 一 一 收缩 则 出 现 惊讶 或 注意 等 神情 。 

4) 皱眉 肌 、 降 应 肌 一 一 将 眉 内 端 下 降 及 内 收 锁 紧 眉头 ， 则 出 现 “ 思 考 ” 或 “ 愁 ” 的 表 
情 。 
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5) HRS HEIL, CAO HVLC, HT TH. A 

6) AGRE SRS, RU, ARF, AFL 

7) EJS Or WL, iL Fa Sh EOE, PREP. 

8) 下 层 方 肌 、 三 角 肌 一 将 口角 向 下 拉 ， 产 生 口 角 和 下 颌 之 间 的 皱纹 。 

9) 笑 肌 一 一 向 上 收缩 ， 产 生 笑 意 的 酒窝 。 

对 于 画 者 来 说 ， 头 像 塑 造 得 好 与 坏 ， 同 是 否 掌握 了 头 部 解剖 知识 有 很 重要 的 关系 ， 骨 
点 、 肌 肉 要 能 熟 记 ， 头 像 大 体 结构 要 清楚 ， 还 有 五 官位 置 都 能 记 住 ， 只 有 这 样 才能 构图 准 
确 。 在 他 们 学 习 绘画 的 过 程 中 ， 甚 至 可 以 拿 一 个 人 物 骨 架 、 肌 肉 解剖 模型 作为 参照 物 ， 来 对 
照 一 下 自己 作画 的 对 象 解剖 关系 是 否 准确 ， 骨 点 、 肌 肉 的 转折 运动 表现 是 否 准确 等 。 

4. 脸 部 的 形体 结构 研究 

分 析 脸 部 的 形体 结构 ， 是 帮助 正确 刻画 脸 部 形象 的 一 个 重要 手段 。 当 理解 了 脸 部 的 解剖 
骨骼 与 肌肉 关系 之 后 ， 就 能 更 深刻 地 理解 脸 部 的 形体 结构 。 人 的 颜面 区 占 头 长 的 2/3。 额 骨 
部 扁平 ， 眼 眶 内 嵌入 球状 的 眼睛 ;， 烙 弓 处 是 面部 的 最 阔 处 ， 两 侧 额 弓 的 宽窄 与 高 低 决定 了 面 
部 的 阔 度 与 面颊 的 形状 ， 上颌 骨 成 圆柱 状 ， 上 颌 骨 长 则 成 马 脸 ， 短 则 成 圆 脸 ， 三 角形 的 下 颌 
部 依据 马蹄 形 的 下 颌 骨 概括 而 成 ， 两 侧 下 颌 角 突出 的 程度 决定 了 面部 是 瓜子 形 还 是 四 方形 ; 
PRATER, KEM, AAR, 侧面 头 部 的 额 弓 是 上 下 两 倾斜 面 的 分 界 
线 ; 鼻骨 的 倾斜 和 隆起 决定 了 鼻 部 的 坡度 与 高 低 。 总 之 ， 头 部 骨骼 的 形态 和 细节 都 会 在 外 形 
上 显露 出 来 ， 从 而 影响 人 物 的 面部 形象 。 

5. 五 官 的 形体 结构 

为 了 刻画 好 脸 部 形象 ， 除 了 深入 理解 头 部 的 基本 形体 结构 外 ， 还 必须 对 面部 的 五 官 做 深 
入 细致 的 研究 。 五 官 包括 : JA. HR. BR OR, HE. 

(1) JA 眉 起 自 眶 上 缘 内 角 而 延 止 外 角 ， 内 端 称 眉头 ， 外 端 称 眉梢 。 眉 分 上 、 下 两 列 ， 
下 列 眉 呈 放射 状 ， 内 浓 外 淡 。 上 列 肝 覆 下 列 眉 之 上 ， 走 势 向 下 ， 上 列 眉 自 丑 头 的 1/3 处 开始 
生长 ， 外 端面 积 大 于 内 端 。 两 列 眉 相 交 而 成 眉 尖 ， 后 两 端 矿 ， 中 间 汇 集 处 浓密 ， 下 列 丑 刚 ， 
上 列 眉 柔 。 眉 内 侧 略 直 ， 而 外 侧 成 弧 形 。 眉 毛 位 于 眶 上 缘 的 两 边 ， 内 端 背 光 ， 明 了 暗 较 深 ; 外 
端 朝 光 ， 色 较 浅 。 眉 的 形状 有 多 种 多 样 ， 如 柳 叶 眉 、 卧 蚕 眉 、 八 字 眉 MUS. 

(2) HR 眼见 图 2-3) 是 刻画 人 物 形象 极其 重要 的 部 位 ， 故 称 为 “ 心 魂 的 窗子 ”"。 眼 
是 由 上 下 眼 瞪 及 眼球 组 成 ， 上 下 
眼 瞪 结合 处 叫 内 紫 、 外 紫 。 上 了 眼 
瞪 可 覆盖 眼球 的 3/4， 比 下 眼 瞪 
的 活动 范围 要 大 得 多 ， 上 眼 瞪 较 
隆起 ， 下 了 眼 瞪 较 平坦 ;眼球 分 虹 
膜 ( 俗称 眼球 ) 、 巩 膜 ( 俗称 眼 
ED. RSL ( 深 黑色 ) 等 部 分 。 
眼球 为 一 玻璃 体 ， 但 不 是 一 个 到 
处 都 一 样 的 圆 球 ， 虹 膜 部 分 略为 
突出 ， 眼 皮 转 动 时 ， 由 于 这 个 突 
出 部 分 的 作用 ， 上 下 了 眼 瞪 也 都 有 
一 个 高 点 随 之 转动 。 眼 的 形状 有 Bo pam 
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IRE, WAR, BIE, RIE SARE, 
(3) 5 mW. RRE, RRRA TA, WE 24 Pra. SAE SI. AEA 
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分 布 十 分 明确 ; 鼻翼 下 部 和 鼻孔 是 由 外 转向 内 LA 
的 微妙 的 小 面 所 构成 ， 作 画 时 切 不 可 画 成 简单 
的 两 个 黑洞 。 鼻 在 颜面 中 部 ， 成 三 角 隆 起 ， 它 
把 眼 和 嘴 密 切 联系 起 来 ， 是 观察 和 掌握 面部 结 
构 和 比例 的 中 心 ， 自 的 长 短 直 接 影响 人 的 脸形 
的 长 短 。 

(4) Mj WE ( 见 图 2-5) SER, FR, 
嘴 颖 、 嘴 角 。 它 的 形状 是 半圆 形 隆起 ， 上 层 以 
上 层 结 节 为 中 心 ， 有 两 个 转向 两 侧 的 小 面 ， 并 
逐渐 缩 窗 于 嘴角 ; 下 唇 有 正面 和 两 个 侧面 ， 下 
层 正 下 方 有 一 个 向 前 倾斜 的 小 面 ， 它 同 闫 隆 凸 图 2-4， 鼻 结构 
一 起 构成 闫 唇 沟 ; 对 嘴角 窜 和 层 侧 沟 的 刻画 ， 在 表现 人 物 的 年 龄 与 表情 变化 上 ， 起 着 非常 重 
要 的 作用 。 嘴 的 形状 也 有 很 多 ， 如 有 厚 嘴 展 、 薄 嘴唇 、 樱 桃 嘴 等 。 
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图 2-5” 嘴 结构 




















(5) 耳 耳 人 打 生 在 头 部 的 两 人 出， 主要 是 外 耳 壳 ， 由 
软骨 支撑 ， 它 由 耳 轮 、 耳 屏 、 耳 垂 等 部 分 构成 ( 见 图 2- 
6) 。 耳 是 斜 长 在 头 部 两 侧 ， 是 个 不 规则 而 近似 平行 四 边 = 
形 的 四 凸 不 平 的 形体 。 耳 的 形状 也 有 很 多 ， 如 圆 耳 、 尖 
HF, EH, HAET, 

6. 性 格 特征 

要 完成 一 件 好 的 人 像 作 品 ， 光 具备 一 些 基本 的 知识 
技法 是 不 够 的 。 人 像 作 品 传达 美的 信息 ， 一 要 靠 生 动 的 
WA; 二 要 靠 揭示 人 物 的 性 格 、 精 神气 质 ; 三 才 是 要 靠 
完善 的 表现 形式 和 技巧 。 头 像 要 求 “ 形 神 兼备 ”。 神 ， 
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泛 指 一 个 人 的 精神 因素 ， 如 神情 、 神 态 、 神 色 、 神 气 等 ， 实 际 上 就 是 人 的 面部 表情 所 传达 的 
东西 。 中 国 自 古 以 来 就 有 “以 形 写 神 "”“ 形 神 兼 备 ” 的 画 论 。 东 晋 画家 顾 恺 之 曾 说 过 : “以 
形 写 神 ， 则 神 从 形 生 ; 无 形 ， 则 神 无 所 依托 。 然 有 形 无 神 ， 系 死 形 相 ， 所 谓 “ 如 尸 似 塑 
者 也 。 未 能 成 画 。 ”要 避免 公式 化 、 概 念 化 的 机 械 式 的 描 昔 ， 和 否则 就 会 显得 那么 呆板 而 没有 
生气 。 人 物 要 刻画 得 好 ， 首 先是 形 神 兼 备 ， 注 重 人 物 内 在 性 格 和 情绪 的 刻画 ， 要 掌握 人 物 的 
心理 特征 。 心 理 特征 是 指 气 质 、 性 格 、 情 绪 等 。 最 表面 的 是 情绪 和 表情 。 在 生活 中 ， 人 们 很 
难保 持 一 种 僵硬 的 脸 部 表情 ， 通 过 脸 部 表情 来 体现 情感 是 人 们 常用 的 较 自 然 的 表现 方式 ， 其 
情感 表现 区 域 主 要 包括 嘴 、 脸 颊 、 眼 睛 、 眉 毛 和 前 额 等 。 人 在 表达 情感 时 ， 只 要 稍 许 改 变 

下 面部 的 局 部 特征 〈 和 譬如 皱 一 下 眉毛 ) ， 便 能 反映 出 一 种 心态 。 

人 的 性 格 、 气 质 是 复杂 多 样 的 。 一 个 性 格外 向 的 人 ， 喜 轻 哀 乐 常 露 于 形 ， 而 一 个 性 格 内 
向 的 人 ， 却 常 不 露 声色 。 但 细 细 体察 ， 一 个 人 的 内 心 世界 和 气质 总 是 可 以 通过 外 在 形体 特征 
表现 出 来 的 。 例 如 : 某 个 人 圆 圆 的 脸形 ， 两 只 眼睛 总 是 细 睐 着 ， 厚 厚 的 嘴唇 ， 显 得 很 稚气 、 
很 朴实 。 另 一 个 人 方 方 的 脸形 ， 浓 眉 大 眼 ， 显 得 开朗 活泼 。 这 些 都 是 最 打动 人 的 特征 。 这 就 
要 求 画 者 在 平时 要 认真 观察 人 的 由、 眼 、 跨 在 情绪 变化 时 的 表现 ， 通 过 面部 喜 、 和 她、 豆 、 乐 
等 五 官 特征 来 刻画 人 物 表 情 ， 尤 其 是 要 画 好 眼 、 嘴 的 微妙 变化 ,恰当 地 达到 传神 的 目的 ， 所 
以 观察 不 是 单纯 的 生理 上 的 感知 ， 必 须 以 看 到 对 象 主要 的 特点 、 特 征 为 前 提 ， 加 以 比较 、 分 
析 。 在 神情 最 为 自然 、 生 动 的 时 刻 来 画 ， 就 能 使 画面 有 生气 ， 画 面 人 物 情趣 痊 然 、 气 韵 生 
动 。 形 神 兼 备 才 是 人 像 作 品 的 最 高 境界 。 


2.2.2. 人 上 脸 表情 在 戏曲 和 舞台 剧 中 的 表现 


一 提 到 戏曲 ， 你 一 定 会 想象 到 舞台 上 人 勾画 五 彩 脸谱 、 身 着 各 色 戏 衣 的 人 物 形 象 。 脸 谱 是 
中 国 戏 曲艺 术 的 重要 组 成 部 分 ， 也 是 戏曲 艺术 的 重要 特征 之 一 。 所 以 人 脸 的 表情 特征 在 戏曲 
中 主要 就 是 以 一 张 脸谱 的 形式 表现 出 来 的 。 

戏剧 家 张 庚 先生 说 :“ 脸 谱 是 一 种 中 国 戏曲 内 独 有 的 、 在 舞台 演出 中 使 用 的 化 妆 造 型 
艺术 。 从 戏剧 的 角度 来 讲 ， 它 是 性 格 化 的 ; 从 美术 的 角度 来 看 ， 它 是 图 案 式 的 。” 不 是 每 
个 人 物 都 要 勾画 脸谱 ， 脸 谱 的 勾画 要 按照 人 物 角 色 的 分 类 来 进行 。 戏 曲 中 的 角色 行当 最 
初 是 用 于 表现 人 物 的 社会 地 位 、 身 份 和 职业 ， 后 来 逐渐 扩展 到 表现 人 物 的 品德 、 性 格 、 
气质 等 方面 。 角 色 行 当 具 有 类 型 化 特征 ， 而 且 对 角色 的 区 分 带 有 明显 的 善 恶 、 赛 贬 的 道 
德 评价 在 里 面 ， 如 公正 忠孝 者 为 端庄 的 正 貌 ， 奸 邪 可 有 恶 者 刻画 成 丑 形 。 面 部 化 妆 和 服装 
是 区 分 人 物 角 色 的 可 视 的 直接 表征 ， 如 果 说 服装 主要 是 表现 人 物 的 身份 、 地 位 、 职 业 ; 
那么 面部 化 妆 ， 尤其 是 脸谱 化 妆 更 多 表现 的 是 人 物 的 性 格 、 气 质 、 品 德 、 情 绪 、 心 理 等 
方面 。 通 过 脸谱 对 人 物 的 善 恶 、 窒 贬 的 评价 是 直接 的 、 一 目 了 然 的 。 如 曹操 色白 脸 表 示 
奸诈 ， 关 羽 勾 红脸 表示 忠义 等 。 

眼睛 、 面 部 是 情绪 、 心 理 的 窗户 ， 因 此 脸谱 是 观众 的 视觉 中 心 ， 脸 谱 对 唤起 观众 审美 心 
理 的 美感 起 着 不 可 忽视 的 重要 作用 。 
中 国 戏曲 是 一 个 大 “家 族 ” ， 有 很 多 古老 剧种 ， 也 有 新 产生 的 剧种 ， 据 统计 ， 目 前 全 国 
范围 内 共有 三 百 多 个 剧种 ， 其 中 很 多 剧种 ， 如 京剧 、 昆 剧 、 秦 腔 、 普 剧 、 河 北 材 子 、 川 剧 、 
汉 剧 、 微 剧 、 粤 剧 等 ,都 有 脸谱 。 各 剧种 的 脸谱 既 有 相同 之 处 ， 又 有 不 同 之 处 。 戏 曲 脸 谱 的 
艺术 特征 从 整体 上 概括 来 讲 ， 主 要 有 装饰 性 、 程 式 性 、 象 征 性 等 特征 。 
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1. 戏曲 脸谱 的 装饰 性 特征 

古今 中 外 的 戏剧 演出 都 追求 外 部 形式 的 美感 ， 但 外 部 形式 的 形态 、 手 法 、 方 法 等 很 不 相 
同 。 西 方 传统 戏剧 的 人 物 造 型 追求 的 是 写实 ， 也 就 是 如 实 反映 现实 中 的 人 物 造 型 。 

戏曲 脸谱 是 一 种 变形 极 大 的 化 妆 艺 术 。 脸 谱 的 变形 首先 要 “ 离 形 ”,“ 离 形 ” 就 是 不 拘 
于 现实 生活 的 自然 形态 ， 大 胆 地 进行 夸张 、 装 饰 。 戏 曲 舞 台 上 各 种 颜色 的 脸谱 在 生活 中 是 没 
有 的 ， 但 他 又 是 来 自生 活 的 ， 如 生活 中 形容 人 脸 党 用 “漆黑 的 脸 ”“ 红 红 的 脸 ”“ 脸 色 焦 
黄 ”“ 面 色 苍 白 ” 等 ,勾画 脸谱 的 话 ， 就 分 别 用 黑 、 红 、 黄 、 白 等 颜色 夸张 地 进行 表现 ， 鲜 
艳 的 纯色 就 与 现实 中 人 脸 的 颜色 拉 开 了 距离 ， 这 是 色彩 的 “ 离 形 ”。 男 一 方面 ， 脸 谱 勾 的 都 
是 图 案 化 的 形 ， 与 现实 人 脸形 状 拉 开 了 距离 ， 这 是 形状 的 “ 离 形 ”。 

脸谱 的 变形 还 要 “ 取 形 ”,“ 取 形 ” 就 是 把 现实 生活 中 的 某 物 象 的 自然 形态 取 来 ， 加 以 
变化 ， 使 其 图 案 化 、 装 饰 化 ， 具 有 一 定 的 象征 、 寅 意 在 里 面 。“ 取 形 ” 也 就 是 讲究 章法 ， 把 
脸 部 一 些 重要 部 位 的 色彩 、 线 条 ， 巧妙 地 组 织 、 归 纳 到 一 定 的 “ 形 ” 的 图 案 中 来 。 通 过 
“ 取 形 ”来 达到 “ 离 形 得 似 ”。 取 形 的 方法 和 样式 很 多 ,例如 眉 窒 的 勾 法 就 有 : BSB. X 
WB. WUEJH. WWA., JRE. KRE., SUB. EJA, AS oP ee T JEN 
BAES, PEARSE LIE, SAORI 3 TERI. Aa GOR SS. AE. ABT eB 
位 也 都 如 此 。 

脸谱 的 “ 离 形 ”“ 取 形 ” 达 到 图 案 化 、 装 饰 化 的 美的 效果 ， 其 目的 是 为 了 醒目 地 传神 。 
“ 离 形 得 似 ”“ 遗 貌 取 神 ”， 这 是 中 国 上 古代 美学 思想 ， 意 思 是 “神似 ”要 高 于 “形似 ”， 写 形 
要 为 传神 服务 ， 为 了 达到 神似 ， 可 以 突破 形似 。 这 种 美学 思想 ， 不 仅 在 绘画 上 ， 也 在 戏曲 舞 
台 上 得 到 贯彻 。 脸 谱 的 传神 包含 性 格 化 。 脸 谱 的 性 格 化 ， 是 要 求 表现 出 一 种 符合 这 个 人 物性 
格 的 基本 神气 、 基 本 特征 。 这 是 整个 脸谱 的 色彩 、 纹 样 的 综合 效果 ， 再 结合 戏 的 情节 、 演 员 
的 表演 ， 装 饰 性 的 脸谱 才能 充分 发 挥 其 表现 力 ， 才 能 生动 、 迷 人 。 

2. 戏曲 脸谱 的 程式 性 特征 

戏曲 脸谱 的 变形 大 胆 而 夸张 ， 正 所 谓 “ 粉 黑 青 红 ， 纵横 于 面 "*。 但 是 ， 这 种 大 胆 和 和 奔 
张 ， 又 不 是 随便 涂抹 而 成 的 ， 是 有 一 定 的 规律 和 方法 的 。 脸 谱 艺术 非常 讲究 章法 ， 将 点 、 
线 、 色 、 形 有 规律 地 组 织 成 装饰 性 的 图 案 造 型 ， 由 此 也 就 产生 了 戏曲 脸谱 的 各 种 各 样 的 格式 
与 规则 ， 也 就 是 形成 了 一 定 的 程式 (“程式 ”一 词 在 语言 学 中 ， 本 义 是 法 式 、 规 章 或 格式 。 
《辞源 》 中 说 ， 立 一 定 的 准 式 以 为 法 ， 谓 之 程式 ) 。 

从 脸谱 的 章法 构图 看 ， 有 各 种 类 型 人 物 的 谱 式 ， 如 整 脸 、 三 块 瓦 、 十 字 门 、 六 分 脸 等 。 
各 种 谱 式 名 目 ， 只 是 对 构图 相近 的 脸谱 的 一 种 概括 性 称谓 ， 落 实 到 具体 人 物 的 脸 上 ， 属 于 同 
一 谱 式 的 各 个 脸谱 也 有 不 同 的 勾 法 。 以 京剧 为 例 ， 其 基本 谱 式 也 就 是 十 来 种 (不 包括 各 种 
细致 的 花色 变样 ) ， 而 人 们 见 到 的 脸谱 却 有 成 百 上 千 个 之 多 。 把 基本 谱 式 作为 一 种 程式 ， 为 
各 类 人 物 的 勾 法 提供 了 大 致 样式 ， 从 中 可 演变 出 无 数 个 脸谱 来 。 

脸谱 的 局 部 位 置 也 有 类 型 样式 ， 如 眼 的 形式 就 有 : SOHHR. SIE, momHR. AR. AIR 
窝 、 喜 更 腿 、 色 云 眼窝 、 尖 眼窝 、 皱 眼窝 、 老 眼 等 多 种 样式 。 又 如 脑门 、 眉 、 鼻 窝 等 部 位 也 
有 多 种 样式 。 

脸谱 艺术 是 一 个 严谨 有 序 的 系列 ， 这 个 系列 除了 上 述 的 各 种 脸谱 整体 谱 式 和 各 部 分 局 部 
样式 外 ， 又 包括 角色 与 谱 式 之 间 一 整套 的 规则 关系 ， 如 “一 人 一 谱 ”“ 一 人 多 谱 ”“ 随 戏 换 
谱 ”“ 多 谱 同 台 ” 等 ， 还 包括 脸谱 的 勾画 程序 等 ， 这 些 都 显示 出 戏曲 脸谱 的 程式 性 特征 。 
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戏曲 脸谱 的 程式 性 特征 ， 是 服从 并 协调 于 戏曲 艺术 的 整体 风格 和 美学 特质 的 。 戏 曲艺 术 
的 整体 及 各 个 部 门 都 是 程式 性 的 ， 戏 曲 的 文学 语言 是 诗词 格律 化 的 ， 有 字数 不 同 的 对 偶 句 式 
和 各 种 长 短 句 式 等 ; 戏曲 音乐 有 曲牌 联 套 体 和 板式 变化 体 两 大 系统 内 的 各 种 程式 音乐 ; 戏曲 
表演 有 唱 、 念 、 做 、 打 的 各 种 程式 :人物 服装 和 景物 道具 等 也 都 有 各 种 程式 。 图 案 化 、 装 饰 
化 的 脸谱 程式 与 上 述 各 种 程式 有 机 地 绿 合 起 来 ， 构 成 了 戏曲 艺术 严谨 和 谐 、 节 奏 鲜 明 、 气 韵 
生动 的 艺术 品格 。 

脸谱 的 程式 与 表演 等 其 他 程式 一 样 ， 具 有 约定 俗 成 的 性 质 ， 和 营 看 戏 的 观众 一 看 到 某 种 程 
式 ， 就 能 明白 是 什么 意思 ,产生 丰富 的 联想 ， 帮 助 观众 理解 剧情 和 人 物性 格 、 情 绪 、 心 理 
等 ， 增 强 演出 感染 力 。 

各 门 中 国 传统 艺术 都 有 很 强 的 程式 性 ， 戏 曲 脸谱 的 程式 与 各 门 传统 艺术 的 程式 是 相通 
的 ， 如 与 书法 、 中 国画 的 程式 就 很 类 似 。 

3. 戏曲 脸谱 的 象征 性 特征 

象征 是 一 种 符号 ， 但 不 是 一 般 的 符号 。 德 国 古 典 哲 学 家 黑 格 尔 说 过 ， 象征 符号 “是 一 
种 在 外 表 形 状 上 就 已 可 暗示 要 表达 的 那 种 思想 内 容 的 符号 ”( 黑 格 尔 ,《 美 学 》， 第 2 3558 1 
页 )。 戏 曲 脸谱 就 是 一 种 象征 性 符号 。 

一 般 来 说 ， 脸 谱 主 要 突出 人 物 的 性 格 特征 ， 具 有 “ 寅 仁 贬 ， 别 善 恶 ”的 艺术 功能 ， 从 
中 可 以 看 出 ， 绘 制 者 对 人 物 的 道德 评价 ， 使 观众 能 目 视 外 表 ， 宪 其 心胸 。 这 就 是 戏曲 脸谱 象 
征 、 寓 意 的 特征 ， 有 具体 可 以 从 “ 形 ” 和 “ 色 ” 两 个 方面 来 看 。 

(1) 先 从 “ 形 ” 看 ”脸谱 中 的 “ 取 形 ”， 就 是 为 了 和 象征。 脸谱 中 常 取 某 种 自然 形态 的 东 
西 来 象征 、 寓 意 ， 有 勾画 动物 形态 的 CARI. DR WIESE) ， 也 有 把 人 物 的 生理 形态 
(如 年 龄 特征 、 长 相 特征 等 ) 勾画 出 来 的 ; 也 有 把 使 用 的 兵器 CGR. FJ. OS) 勾 到 脸 上 
的 ; 还 有 直接 把 字 勾 到 脸 上 的 等 。 这 些 形态 都 经 过 了 图 案 化 、 装 饰 化 了 的 变形 处 理 ， 以 突出 
该 人 物 的 最 大 特征 。 例 如 : 京剧 中 和 鲁 智 深 的 脸谱 里 ， 有 一 对 星 螂 由 ， 这 两 只 争 臂 相向 的 星星 
图 案 ， 既 象征 鲁 智 深 的 她 眉 ， 又 寓意 这 个 梁山 好 汉 豪 更 、 好 斗 的 精神 与 路 见 不 平 、 拔 刀 相 助 
的 性 格 。 杨 七 即 的 脑门 上 色 一 草书 “ 虎 ” 字 ， 原 意 是 象征 他 是 黑 虎 星 下 凡 ， 同 时 也 隐喻 杨 
七 郎 像 老 虎 一 样 勇 猛 无 比 的 “ 虎 气 ”个 性 。 后 漳 的 脸 上 勾画 了 九 个 太阳 的 形象 ， 以 说 明 他 曾 
用 第 射 下 九 个 太阳 。 郑 子 明年 轻 时 为 救 人 曾 被 猩猩 抓 伤 脸 ， 政 勾 成 不 对 称 的 焉 脸 。 

脸谱 中 象征 符号 的 “ 形 ”， 大 体 上 都 有 相对 确定 的 离 意 。 但 有 的 脸谱 的 “ 形 ” 则 是 多 义 
的 ， 可 让 人 作出 不 同 联想 和 解释， 如 包 拯 脑门 上 的 白色 月 牙 ， 一 种 说 法 是 表示 他 能 “日 断 
阳 ， 夜 断 阴 ”， 白 天 在 人 间 (HE) WMR, 夜晚 下 阴间 断案 ; 另 一 种 说 法 ， 这 个 白色 月 牙 出 
现在 黑 脑 门 上 ， 表 示 “ 青 示 ”， 在 黑暗 的 时 代 ， 人 民 仰望 他 犹如 天 空 的 卑 月 一 般 。 

一 个 人 物 的 性 格 气质 等 特征 是 相对 稳定 的 ， 但 在 不 同年 龄 阶段 ， 或 在 不 同 场 合 情 境 里 ， 
会 有 不 同 的 情绪 、 心 理 、 行 为 方式 ， 所 以 这 就 导致 了 一 个 人 物 的 脸谱 不 可 能 只 有 一 种 色 法 的 
原因 ， 如 钱 金 福 色 的 张 飞 的 笑脸 ,很 适合 于 《芦花 荡 》; 而 尚 和 玉 强 调 张 飞 威 猛 的 勾 法 ， 更 
适合 演 《 战 马超 》。 

不 同 剧种 对 同一 个 人 物 脸 谱 的 处 理 ， 有 时 也 是 不 同 的 ， 这 是 因为 各 地 流传 的 民间 故事 、 
生活 习俗 和 对 人 物 的 理解 等 方面 的 不 同 造成 的 。 

(2) BEA “E A 颜色 是 脸谱 艺术 的 男 一 重要 方面 。 世 界 上 每 个 民族 都 有 对 颜色 的 
理解 和 偏好 ， 中 国人 也 有 自己 的 独到 理解 和 偏好 。 戏 曲 脸谱 的 设 色 与 我 们 民族 的 文化 传统 、 
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生活 习惯 密切 相关 ， 脸 谱 中 每 种 设 色 都 具有 特定 的 象征 意义 。 

红色 表示 赤 胆 忠心 ; 紫色 表示 智勇 刚 义 ; 黄色 表示 武将 驳 勇 善战 、 残 歇 ， 表 示 文 士 内 有 
心计 ; 绿色 表示 侠骨 义 肠 、 性 格 暴躁; HE Zea ME ik, SEAN; 黑色 表示 忠 耿 正直 ; 
白色 表示 阴险 奸诈 ; 粉红 色 表 示 年 迈 气 衰 的 忠勇 老者 ; 乌 灰 色 表示 老年 泉 雄 ; 金 、 银 色 多 用 
于 神 、 佛 、 鬼 怪 ， 象 征 虚幻 之 感 。 

上 述 脸谱 设 色 的 象征 意义 是 大 体 的 指向 ， 不 可 作 简 单 、 绝 对 的 理解 。 脸 谱 设 色 的 象征 意 
义 ， 仍 有 很 大 的 灵活 性 。 如 红色 一 般 表示 忠 耿 ,但 《法 门 寺 》 里 的 太监 刘瑾 ， 勾 的 却 是 红 
E, KERESIK, 表现 其 养 葡 处 优 、 权 压 朝 臣 的 地 位 ， 再 加 上 应、 眼 、 嘴 部 勾 出 的 奸诈 
表情 ， 一 看 就 是 一 位 擅 权 的 太监 。 

对 一 个 脸谱 的 认识 ， 应 把 脸谱 的 “ 色 ” 与 脸谱 的 “ 形 ” 结 合 起 来 ， 还 要 与 服装 的 颜色 
和 样式 结合 起 来 ， 并 且 结 合 具体 剧情 和 具体 人 物 ， 才 能 有 较为 准确 的 认识 。 反 过 来 ， 脸 谱 又 
可 帮助 观众 理解 人 物 和 剧情 。 

脸谱 的 “ 色 ” 与 “ 形 ”结合 起 来 ， 构 成 脸谱 较为 确定 的 象征 意义 ， 着 重 表现 人 物 的 性 
格 特征 、 精 神气 质 、 道 德 品质 ， 完 成 对 人 物 的 善 恶 讲 贬 的 评价 。 在 脸谱 中 ， 象 征 只 有 同 传神 
结合 起 来 才 有 艺术 魅力 ， 传 神 就 是 要 传人 物 之 “ 神 ”， 人 物 之 “ 神 ” 就 是 指 人 物 的 性 格 、 气 
质 、 品 德 等 本 质 的 东西 。 

戏曲 舞台 上 ， 净 、 丑 角 人 物 一 出 场 ， 其 脸谱 和 服装 就 会 告诉 人 们 这 个 人 物 的 性 格 、 品 德 
以 及 身份 、 地 位 ， 使 观众 在 明了 的 情况 下 ， 去 专心 欣赏 演员 的 表演 技艺 ， 有 助 于 观众 与 演员 
之 间 的 情感 、 精 神 交 流 深 入 妙 远 意趣 。 总 之 ， 脸 谱 在 表现 人 物性 格 及 身份 、 烘 托 与 泻 染 戏剧 
氛围 、 间 接 反映 观众 观 剧 心理 等 方面 ， 起 着 巨大 的 作用 。 同 样 舞台 剧 中 的 化 妆 和 戏曲 中 的 人 
脸 脸 谱 的 表现 也 是 一 样 的 作用 ， 都 是 为 了 表达 人 物 特 定 表 情 的 。 以 下 是 几 个 脸谱 ， 我 们 可 以 
看 看 其 表达 的 人 物 表情 和 特点 ， 从 图 2-7 和 图 2-8 所 示 的 两 幅 脸 谱 中 ， 即 使 不 是 很 懂 脸 谱 ， 
我 们 也 可 以 看 出 ， 这 两 个 人 的 表情 是 肯定 不 一 样 的 。 

























































































图 2-7 ”脸谱 之 一 图 2-8 脸谱 之 二 





2.2.3 人 脸 在 各 种 美术 画 法 中 的 表现 


我 们 这 里 说 的 美术 主要 指 的 是 中 国画 。 按 照 艺术 的 手法 来 分 ， 中 国画 可 分 为 工笔 、 写 意 
和 兼 工 带 写 三 种 形式 。 工 笔 就 是 用 画笔 工整 细致 、 甫 色 层 层 演 染 、 细 节 明 彻 人 微 ， 用 极其 细 
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腻 的 笔触 描绘 物象 ， 故 称 “ 工 笔 "。 而 写意 呢 ? 相对 “工笔 ”而 言 ， 用 豪放 简练 的 笔墨 描绘 
物象 的 形 神 ， 抒 发 作者 的 感情 。 它 要 有 高 度 的 概括 能 力 ， 要 有 以 少 胜 多 的 含蓄 意境 ， 落 笔 要 
准确 ， 运 笔 要 熟练 ， 要 能 得 心 应 手 ， 意 到 笔 到 。 兼 工 带 写 的 形式 则 是 把 工笔 和 写意 这 两 种 方 
法 进行 综合 的 运用 。 所 以 在 美术 画 法 中 ， 人 脸 是 可 以 用 夸张 的 形式 表现 出 来 的 ， 最 主要 的 是 
抓 住 人 物 的 特征 ， 表 现 此 人 的 特点 ， 神 似 而 不 是 形似 。 

对 于 人 物美 的 认识 与 表现 ， 一般 不 留意 于 人 体 美 ， 而 侧重 “ 神 识 风 采 ” 之 美 。 其 最 名 
贵 的 传统 素 称 为 传神 或 称 为 写真 、 写 心 、 肖 品 ， 即 通过 足以 显现 人 物 内 在 本 质 的 外 形 的 描 
写 ， 真 实地 展示 不 同人 物 的 性 格 、 个 性 与 内 心 世界 ， 同 时 也 揭示 其 品格 ， 反 映 其 社会 属性 ， 
并 给 以 或 尝试 新 的 审美 判断 。 

为 此 ， 中 国人 物 画家 主张 以 神 “ 君 形 ”， 紧 紧 抓 位 有 利于 传神 的 眼神 、 手 势 、 身 姿 与 重 
要 细节 ， 强 调 分 别 主 次 ， 有 详 有 略 ， 详 于 传情 的 面部 、 手 势 ， 而 略 于 衣冠 ; 详 于 人 物 活动 及 
其 顾盼 呼应 ， 而 略 于 环境 描写 ; 或 只 写 人 物 而 不 败 背景， 或 背景 十 分 简略 仅 出 示 有 助 于 点 明 
环境 的 道具 ; 或 人 物 头 面 手足 写实 ， 而 衣着 略 市 装饰 ; 或 背景 用 程式 化 手法 ， 而 人 物 精细 刻 
画 。 某 些 人 物 画 为 突出 作者 独特 感受 ， 亦 采取 夸张 变形 的 手法 。 在 人 物 活 动 与 环境 景物 的 关 
系 上 ， 对 于 抒情 性 的 作品 ， 往 往 借 创造 意境 氛围 烘托 人 物 情态 ， 对 于 氢 事 性 的 作品 ， 在 采取 
横幅 或 长 卷 构图 中 ， 尤 善于 以 环境 景物 或 室内 陈设 划分 空间 ， 采 用 主体 人 物 重 复出 现 的 方 
法 ， 把 发 生 在 时 间 过 程 中 的 事件 ， 铺 叙 ， 突 破 了 统一 时 空 的 局 限 。 

人 物 画 中 使 用 的 笔墨 技巧 与 技法 ， 在 工笔 设 色 、 白 描 和 小 写意 作品 中 ， 更 重视 笔法 的 基 
干 作用 ， 为 此 创造 了 十 八 描 。 笔 法 或 描 法 一 方面 服从 于 形象 的 结构 质感 、 量 感 与 神情 ， 男 一 
方面 也 要 传达 作者 的 感情 ， 同 时 还 用 以 体现 作者 的 个 人 风格 。 在 写意 人 物 画 中 ， 笔 墨 相 互 为 
用 ， 笔 中 有 墨 ， 墨 中 有 笔 ， 一 笔 落 纸 ， 既 要 状 物 传神 ， 又 要 抒情 达意 ， 还 要 显现 个 人 风格 ， 
其 难 易 程 度 远 胜 于 山水 花鸟 画 。 被 称 为 行乐 图 的 人 物 肖 像 画 ， 一 律 把 人 物 置 于 最 易 展 现 其 气 
质 品格 的 特定 景物 中 ， 具 有 不 同 于 一 般 肖 像 画 的 特点 。 在 色彩 使 用 与 诗 书画 印 的 结合 上 ， 人 
物 画 具有 一 般 中 国画 的 特色 。 


2.3 动画 中 人 脸 的 表现 



































































































































2.3.1 人 脸 动 画 的 应 用 


随 着 计算 机 技术 及 人 机 交互 技术 的 飞速 发 展 ， 计 算 机 如 何 生 动 形 象 地 把 信息 传达 给 用 
户 ， 使 用 户 理解 和 接受 也 是 一 个 很 重要 的 问题 。 文 字 二 维 图 像 和 简单 的 语音 为 主要 手段 的 图 
形 用 户 界 面 已 经 越 来 越 不 能 满足 人 们 的 要 求 了 ， 而 人 脸 动画 技术 为 人 们 提供 了 一 种 更 生动 有 
趣 的 选择 。2000 年 4 月 ， 址 界 上 第 一 位 电脑 模拟 的 “新 闻 女 即 ” 安 娜 诺 娃 〈 见 图 2-9) 在 
互联 网 上 与 观众 见面 ， 为 全 球 网 民 提 供 24h 新 闻 报 道 。 她 绿 发 大 腿 、 拥 有 人 类 的 各 种 表情 ， 
同时 拥有 略 带 大 西洋 中 部 口音 的 甜美 女性 嗓音 ， 人 们 对 她 表现 出 极 大 的 热情 。 她 使 网 络 新 闻 
节目 更 像 传统 的 电视 新 闻 ， 让 人 们 觉得 更 加 杀 切 。 

此 外 ， 人 脸 动画 技术 用 于 构建 虚拟 社区 、 虚 拟 聊天 室 等 可 以 大 大 地 改善 虚拟 场景 的 逼真 
度 ， 方 便 虚 拟 社区 中 人 们 的 交流 。 像 劳 拉 这 个 虚拟 世界 头号 偶像 人 物 ， 她 凭借 《 古 幕 丽 影 》 
系列 电子 游戏 而 闻名 天 下 ， 在 广大 电子 游戏 爱好 者 当中 大 名 易 易 ， 在 她 的 网 站 ， 你 可 以 看 到 
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她 天 生 就 是 冒险 家 ， SMR, ARG, Ge, MAARA, BOS AEA 
的 “印第安 纳 : 琉 斯 ”。 如 此 完美 的 形象 ， 人 见 人 爱 ， 世 界 各 地 都 有 她 的 崇拜 者 ， 他 们 还 为 
她 设立 网 站 ， 表 示 永 远 爱 她 ， 很 多 人 因为 喜欢 她 而 迷恋 盗墓 者 游戏 。 随 着 计算 机 技术 的 发 
展 ， 在 现在 的 三 维 游戏 中 ， 其 至 可 以 利用 人 脸 动 画 技术 将 游戏 者 本 身 的 形象 合成 到 游戏 场景 
中 去 ,使 游戏 者 有 身 临 其 境 的 感觉 。 

人 脸 动 画 技术 在 教育 中 的 应 用 前 景 也 十 分 广阔 ， 现 在 已 经 应 用 
到 余人 辅助 教学 系统 中 ， 作 用 尤其 明显 。 侠 人 可 以 通过 对 说 话 时 层 
部 动作 的 多 次 分 解 演示 来 反复 学 习 说 话 ， 大 大 减轻 了 教师 的 负担 。 
此 外 ， 人 脸 动画 技术 在 医疗 研究 、 医 学 生理 研究 、 电 子 商 务 中 的 商 
品 介绍 ， 自 动 选 购 系统 等 领域 也 都 有 着 广泛 的 应 用 。 

其 实 ， 人 脸 动画 最 显著 的 应 用 是 影视 制作 。 比 如 我 们 大 家 都 熟 ， 启 。 qe pug ig 
悉 的 美国 电影 《泰坦 尼克 号 》 中 ， 女 主人 公 从 年 轻 美 貌 的 寻 女 一 疯 模 拟 的 “新 闻 女 郎 ” 
下 变 成 了 满 脸 皱 纹 的 老 妇 ， 就 采用 了 动画 制作 中 的 变形 技术 ， 这 为 eee 

增加 了 艺术 表现 力 。 在 《终结 者 下 》《 玩 具 总 动员 》《 真 实 的 
谎言 》《 夺 面 双 雄 》 等 很 多 电影 的 制作 中 ， 都 体现 了 人 脸 造 型 和 动画 技术 的 魅力 。 


2.3.2 卡通 动画 中 人 脸 的 表现 形式 及 常用 软件 


不 同 的 国家 、 地 区 以 及 不 同 的 艺术 家 都 有 其 不 同 的 艺术 风格 ， 动 画 创 作 的 人 物 都 各 有 特 
点 。 例 如 ,美国 的 动画 大 师 所 创作 的 人 物 大 多 富有 力量 感 ， 比 较 写 实 ， 其 至 连 美女 也 不 例 
外 ， 这 与 大 多 数 美国 人 崇拜 个 人 英雄 主义 是 分 不 开 的 。 而 日 本 的 动画 大 师 所 创作 的 人 物 大 多 
BRAS, MARFA DR, BARRA, Tice, WEAF, Ae 
如 此 。 

在 我 国 ， 由 于 将 动画 片 的 消费 层次 定位 于 少年 儿童 ， 因 此 大 部 分 卡通 形象 主要 是 一 些 简 
单 的 人 物 造型 ， 比 如 《大 头 儿子 和 小 头 和 爸爸 》。 

总 体 上 来 看 ， 大 体 可 以 将 人 物 造型 分 为 三 类 : 简单 风格 、 欧 美 风 格 和 日 本 风格 。 当 然 这 
三 种 风格 的 划分 并 不 是 绝对 的 ， 因 为 随 着 各 国文 化 之 间 的 交流 ， 各 种 风格 之 间 也 在 相互 吸 
收 、 相 互 融合 


2.3.3 二 维 动画 中 人 脸 的 表现 


多 数 二 维 动画 ， 采 用 的 都 是 卡通 漫画 的 表现 形式 ,夸张 变形 是 人 物 造型 最 基本 的 特 
点 。 在 《电影 艺术 词典 》 中 ， 对 动画 片 又 是 这 样 定义 的 : 它 以 绘画 或 其 他 造型 艺术 形式 作 
为 人 物 造型 和 环境 空间 造型 的 主要 表现 手段 ， 不 追求 故事 片 的 逼真 性 特点 ， 而 运用 夸张 、 神 
似 、 变 形 的 手法 ， 借 助 于 幻想 、 想 象 和 象征 ， 、， 
反映 人 们 的 生活 、 理 想 和 愿望 。 从 以 上 这 些 指 A E SESE 2 JE JE E 
述 中 ,我 们 也 可 以 看 出 ， 动 画 人 物 的 表现 是 夺 P 
张 、 神 似 。 任 家 药 先 生 在 他 的 《现代 卡通 画 技 EF Gs 
法 与 创作 》 中 ， 提 到 卡通 造型 可 以 从 两 方面 人 


Ta 写实 与 变形 ， 并 且 提 到 写实 是 变形 的 基础 ， ~~ 
而 变形 是 在 写实 上 的 变形 ， 如 图 2-10 所 示 。 图 2-10 变形 
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动画 中 的 人 脸 表 现 ， 实 际 上 就 是 人 脸 部 表情 的 刻画 ， 通 过 人 物 面 部 表情 ， 可 以 使 观 者 了 
解 人 物 内 心 的 感受 ， 丰 富 的 表情 富有 极 大 的 魅力 ， 能 使 画面 更 加 生动 。 由 于 二 维 动画 ， 采 用 
的 都 是 卡通 漫画 的 表现 形式 ， 所 以 人 脸 的 表现 也 具有 漫画 的 特点 。 漫 画 里 的 表情 通常 已 经 符 
号 化 了 ,成 为 世界 通用 的 符号 ， 只 要 记 住 一 些 很 夸张 的 表情 就 能 很 容易 地 表达 人 物 的 情感 ， 
比如 眼 的 表现 。 图 2-11 所 示 一 组 眼睛 表达 了 人 物 的 各 种 表情 。 人 的 各 种 嘴 型 以 及 表达 情感 
的 各 种 状态 ， 如 图 2-12 所 示 ， 实 际 的 嘴 型 有 很 多 种 ， 改 变 嘴 层 的 客 度 和 厚度 又 可 以 表露 出 
很 多 情感 。 
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在 改变 眉毛 的 间距 和 浓淡 后 人 也 可 以 表露 出 很 多 种 情感 ， 如 图 2-13 所 示 。 
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到 2-13 ”眉毛 




















下 面 我 们 就 来 看 看 这 些 符 号 在 二 维 人 脸 动画 中 如 何 表现 的 。 

CER RE 〈 见 图 2-14) : 这 是 一 个 典型 的 动画 人 物 的 脸 ， 在 这 种 情况 下 ， 人 物 情绪 
的 最 明显 特征 是 眉毛 。 眉 毛 内 部 的 顶端 是 向 上 弯曲 的 。 同 时 她 的 下 眼眶 略微 向 上 弯曲 ， 而 上 
眼皮 呈 更 明显 的 圆 形 曲线 。 弯 曲 下 眼眶 能 表现 压迫 、 悲 伤 或 慎 翁 的 情绪 ; 而 在 这 情况 下 ， 丑 
毛 的 形状 向 我 们 说 明 人 物 处 于 悲伤 状态 。 另 外 ， 嘴 的 形状 很 小 ， 且 嘴角 向 下 弯曲 。 从 整体 来 
看 ， 好 像 她 就 要 大 只 一 场 了 。 

“JHI” (IÆ 2-15): 他 的 眼睛 比较 小 ， 嘴 比较 大 并 且 向 下 弯曲 得 也 不 是 很 明显 。 居 毛 
的 角度 以 及 呈 拱 形 的 下 眼眶 会 让 你 党 得 他 正在 心烦 。 

“愤怒 ”( 见 图 2-16): 眉毛 明显 地 弯 下 来 ， 嘴 巴 看 起 来 像 在 喊叫 ， 两 者 都 表明 他 处 于 疾 
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狂 状 态 ， 不 过 他 的 眼珠 还 是 画 得 非常 大 。 这 使 他 看 起 来 像 是 在 生气 ， 或 受到 了 伤害 或 者 在 为 
他 人 心烦 意 乱 。 














到 2-14 xt 图 2-15 iHi 图 2-16 E 


“快乐 ”〈 见 图 2-077) : 大 大 的 眼睛 、 高 扬 的 眉毛 和 一 张 笑 的 大 嘴 ， 通 常 最 能 表现 欢快 和 
兴奋 的 心情 。 双 眼中 放大 的 高 光 和 向 上 弯曲 的 下 眼线 。 

“PVA” (IE 2-18 ) : 眼睛 画 得 很 大 ， 而 瞳孔 相对 画 得 小 些 。 当 人 物 极 
她 的 眼睛 几乎 会 撑 满 有 答 上 空白 部 分 ， 嘴 画 得 很 小 。 
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图 2-17 ”快乐 图 2-18 惊讶 











有 时 人 物 内 心 是 很 复杂 的 ， 这 时 用 夸张 的 表情 符号 会 不 太 合适 ， 所 以 平时 在 生活 中 还 要 
注意 观察 人 们 表情 的 微妙 变化 ， 这 样 才 色 g 更 好 地 表现 人 物 的 性 格 。 就 像 我 们 党 说 的 演技 派 演 
员 ， 要 展现 他 们 的 功力 ， 常 常 要 看 他 对 复杂 内 心 的 把 握 ， 在 这 里 也 是 同样 的 道理 。 但 漫画 的 
典型 化 、 类 型 化 和 夸张 的 表现 手法 ， 往 往 让 人 物 形象 更 鲜明 ， 冲 突 更 激烈 ， 故 事 性 、 趣 味 性 
更 强 。 


2.4 ”情绪 心理 学 关于 表情 的 研究 


表情 的 心理 学 研究 ， 主 要 源 自 于 情绪 心理 学 方面 的 研究 。 情 绪 作 为 一 种 情感 过 程 ， 是 心 
理 现象 的 重要 组 成 部 分 ， 如 图 2-19 所 示 。 那 么 究竟 什么 是 情绪 与 情感 呢 ? 心理 学 认为 ， 情 
绪 与 情感 是 人 对 客观 事物 的 态度 体验 及 相应 的 行为 反映 。 由 一 定 的 刺激 情境 引起 ， 如 自然 景 
象 、 社 会 生活 事件 及 人 体 的 生理 变化 等 刺激 情境 ， 被 人 进行 解释 或 评估 ， 引 起 不 同 的 态度 体 
验 ， 即 情感 与 情绪 。 当 然 情绪 与 情感 也 是 有 区 别 的 : 

1) 情绪 与 情感 和 不 同 层次 的 需要 相 联系 。 一 般 说 ， 情 绪 与 人 的 自然 需要 能 否 满足 相 联 
系 ， 如 饮食 需要 的 满足 与 否 ， 引 起 满意 或 不 满意 的 情绪 体验 ; 温 、 冷 适应 需要 满足 与 否 ， 引 
起 舒适 或 不 舒适 的 情绪 体验 。 而 情感 是 人 类 特有 的 ， 与 社会 需要 相 联系 ， 是 对 于 受 社会 关系 
所 制约 的 态度 的 反映 ， 如 集体 感 、 责 任 感 、 友 谊 感 、 爱 国 主义 情感 等 。 

2) 情绪 具有 较 大 的 情境 性 、 它 随 着 情境 的 改变 ， 需 要 的 满足 而 减弱 
或 消失 ; 而 情感 具有 较 大 的 稳定 性 、 深 刻 性 和 持久 性 。 
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3) 情绪 的 强度 较 大 ， 带 有 明显 的 冲动 性 和 外 部 表现 ， 如 高 兴 时 手舞足蹈 ， 愤 把 时 暴 晶 
如 雷 ， 情 绪 一 旦 产生 ， 往 往 难以 控制 。 情 感 常 以 内 心 体验 的 形式 存在 ， 比 较 内 隐 ， 如 深沉 的 
爱 、 有 殷切 的 期 望 、 痛 苦 的 思虑 等 ， 不 轻易 外 露 。 

现代 心理 学 认为 ， 人 类 的 基 
本 情绪 或 情绪 的 基本 形式 包括 : 
PUR, BUR, PHA ER DUE 
是 一 种 追求 并 达到 目的 时 所 产生 
的 满足 体验 。 它 是 具有 正 性 享乐 
色调 的 情绪 ， 具 有 较 高 的 享乐 维 
和 确信 维 ， 使 人 产生 超越 感 、 自 
由 感 和 接纳 感 。 愤 怒 是 由 于 受到 
干扰 而 使 人 不 能 达到 目标 时 所 产 
生 的 体验 。 当 人 们 意识 到 某 些 不 
合理 的 或 充满 恶意 的 因素 存在 
时 ， 人 愤怒 会 又 然 发 生 。 恺 惧 是 企 
图 摆脱 、 逃 避 某 种 危险 情景 时 所 图 2-19 心理 现象 及 其 分 类 
产生 的 体验 。 引 起 恐惧 的 重要 原因 是 缺乏 处 理 可 怕 情 景 的 能 力 与 手段 。 翡 哀 是 在 失去 心爱 的 
对 象 或 愿望 破灭 、 理 想 不 能 实现 时 所 产生 的 体验 。 翡 哀 情绪 体验 的 程度 取决 于 对 象 、 愿 望 、 
理想 的 重要 性 与 价值 。 在 以 上 四 种 基本 情绪 之 上 ， 可 以 派生 出 众多 的 复杂 情绪 ， 如 厌恶 、 羞 
耻 、 人 悔恨 、 嫉 妨 、 喜 欢 、 同 情 等 。 

可 见 ， 情 绪 反映 的 是 客观 现实 中 对 象 和 现象 与 人 之 间 的 关系 ， 是 一 个 人 由 对 事物 的 态度 
而 引起 的 主观 上 的 内 心 体验 ， 是 主观 的 意识 经 验 。 人 在 发 生 情绪 时 ， 伴 随 着 肌体 的 一 系列 生 
理 变化 ， 这 种 变化 就 是 表情 。 因 此 说 表情 是 情绪 的 一 种 外 在 的 表达 方式 ， 也 是 人 们 交往 的 一 
种 手段 。 人 们 除了 言语 交往 之 外 ， 还 有 非 言 语 交往 。 在 人 类 交往 过 程 中 ， 言 语 与 表情 经 常 是 
相互 配合 的 。 同 是 一 句 话 ， 配 以 不 同 的 表情 ， 会 使 人 产生 完全 不 同 的 理解 。 而 且 ， 表 情 比 言 
语 更 能 显示 情绪 的 真实 性 。 有 时 人 们 能 够 运用 言语 来 掩饰 和 否定 其 情绪 体验 ， 但 是 表情 则 往 
往 掩饰 不 住 内 心 的 体验 。 因 此 ， 一 些 心理 学 家 在 研究 人 类 交往 活动 中 的 信息 表达 时 发 现 ， 表 
情 起 到 了 重要 的 作用 。 具 体 地 说 ， 表 情 又 可 以 分 为 三 类 : 面部 表情 (本 章 中 为 了 简便 起 见 ， 
在 具体 研究 工作 中 常用 “表情 ”一 词 取 代 “ 面 部 表情 " ) 、 姿 态 表情 和 声调 表情 。 

面部 表情 是 由 面部 肌肉 和 腺 体 变化 来 表现 情绪 的 ， 是 由 眉 、 眼 、 鼻 、 嘴 的 不 同 组 合 构成 
AY. WAFERS, BATA, ASPENS, 、 面 红 耳 未 、 泪 流 满面 等 。 面 部 表情 是 人 类 的 基本 沟 
通 方式 ， 也 是 情绪 表达 的 基本 方式 。 面 部 表情 有 泛 文化 性 ， 同 一 种 面部 表情 会 被 不 同文 化 背 
景 下 的 人 们 共同 承认 和 使 用 ， 以 表达 相同 的 情绪 体验 。 心 理学 家 们 经 过 研究 发 现 ， 有 七 种 表 
情 是 世界 上 各 民族 的 人 都 能 认 出 的 ， 它 们 是 快乐 、 人 惊讶、 生气、 厌恶、 害怕、 悲伤 和 平静 。 
5 岁 的 孩子 在 辨认 表情 的 精确 度 上 便 等 同 于 成 人 了 。 一 般 来 说 ,情绪 成 分 越 复 杂 ， 表 情 越 难 
辨认 。 

表情 作为 情绪 的 外 在 表现 ， 它 和 情绪 的 对 应 关系 并 不 是 线性 的 ， 可 以 说 一 种 表情 常常 不 
代表 同样 的 一 种 情绪 ， 由 于 个 体 本 身 的 不 同 个 性 ， 它 们 之 间 应 该 存在 着 一 种 转换 的 关系 ， 遗 
憾 的 是 ， 心 理学 中 这 方面 的 研究 依然 处 于 探讨 阶段 。 正 是 因为 如 此 ， 对 情绪 的 建 模 是 非常 复 
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杂 的 ， 大 部 分 表情 研究 工作 都 将 面部 表情 作为 情绪 的 直接 体现 ， 将 具有 共同 性 的 七 种 表情 作 
为 人 类 情绪 的 直接 反映 。 


2. 5 “” 认 知心 理学 关于 人 脸 的 研究 


认 知 心理 学 很 重视 对 人 脸 识 别 的 研究 ， 首 先 因 为 人 脸 识别 是 我 们 所 知 的 鉴别 人 的 最 常用 
的 方法 ， 而 表情 识别 是 人 类 交往 沟通 的 重要 手段 ， 人 脸 识 别 及 表情 识别 能 力 在 我 们 的 日 常生 
活 中 有 着 至 关 重 要 的 作用 。 通 过 人 脸 认 知 这 种 基本 而 重要 的 社会 行为 ， 人 们 可 以 获得 许多 重 
要 的 社会 信息 《〈 如 年 龄 、 性 别 、 种 族 和 情绪 等 ) 。 从 本 质 上 研究 人 脸 认 知 加 工 的 基本 规律 和 
地 点 不 但 有 助 于 我 们 对 许多 与 人 脸 认 知 有 关 的 现象 (如 人 脸 认 知 的 发 展 、 反 转 效应 、 跨 种 
族 效 应 等 ) 进行 解释 ， 而 且 有 助 于 我 们 对 人 类 一 般 知 觉 加 工 模式 规律 的 认识 。 其 次 人 脸 及 
表情 识别 与 其 他 的 物体 识别 在 很 多 方面 都 有 差别 。 目 前 认 知 心理 学 对 人 脸 识 别 的 加 工 过 程 已 
有 相当 多 的 了 解 ， 并 且 研 究 者 还 发 现 了 一 种 非常 具有 理论 价值 的 知觉 障碍 ， 即 面孔 失 认 
(Prosopagnosia) 。 在 实际 应 用 中 ， 人 脸 认 知 的 研究 可 以 有 效 地 促进 机 器 人 视觉 研究 的 发 展 ， 
其 研究 的 成 果 还 有 助 于 对 人 脸 有 人 缺陷 的 病人 进行 外 科 整 形 手 术 ， 改 善 由 于 脑 部 受伤 而 引起 的 
人 脸 认 知 失调 的 病人 的 认 知 能 力 ， 以 及 在 法 律 事件 中 对 罪犯 的 指证 等 。 因 此 ， 人 脸 认 知 研究 
有 着 重要 、 广 泛 的 研究 和 应 用 价值 。 

Bruce 提出 了 一 个 人 脸 识别 模型 ， 如 图 2-20 所 示 。 该 模型 由 八大 部 分 组 成 : 
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图 2-20 Bruce 的 人 脸 识 别 模型 
(1) 结构 编码 (Structural Encoding) 部 分 ”结构 编码 产生 关于 面部 的 表征 或 描述 。 结 梳 
编码 又 由 两 部 分 组 成 : 一 部 分 是 以 观察 点 为 中 心 的 描述 ; 另 一 部 分 是 与 表情 无 关 的 描述 。 以 
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观察 点 为 中 心 的 描述 将 对 面部 的 整体 结构 和 特性 进行 抽象 的 描述 ， 其 描述 结果 将 送 至 表情 分 
析 和 面部 语言 分 析 部 分 作 进一步 的 处 理 ， 而 那些 更 加 抽象 的 与 表情 无 关 的 描述 将 送 到 面孔 识 
别 单元 。 

(2) 表情 分 析 (Expression Analysis) 部 分 可 从 面孔 特征 推测 人 的 情绪 状态 。 

(3) 面部 语言 分 析 (Facial Speech Analysis) 部 分 ”对 说 话 者 嘴 层 运动 的 观察 可 帮助 语 
言 知觉 ， 该 部 分 负责 处 理 对 嘴 与 舌 可 见 运动 的 描述 。 

(4) 直接 视觉 处 理 〈Directed Visual Processing) 部 分 “特定 面孔 信息 可 被 选择 性 地 加 
Hs 

(5) 面孔 识别 单元 (Face Recognition Unit, FRU) 部 分 这 些 单元 存储 着 已 知人 员 的 面 
孔 结 构 性 信息 。 

(6) 个 人 身份 节点 (Person Identity Node, PIN) 部 分 这 些 节 点 可 提供 关于 个 体 的 信息 
(如 职业 和 兴趣 等 ) 。 个 人 号 份 节点 与 面孔 识别 单元 的 区 别 在 于 : 面孔 识别 单元 只 能 对 人 的 
面部 进行 识别 ， 而 个 人 身份 节点 不 但 可 以 识别 人 的 面部 ， 还 可 以 识别 人 的 表情 。 

(7) 姓名 产生 (Name Generation) 部 分 产生 相应 的 人 名 。 

(8) 认 知 系统 (Cognitive System) 部 分 “该 系统 包含 附加 信息 (如 演员 往往 有 更 吸引 人 
的 长 相 ) 。 

该 模型 说 明 ， 当 看 到 一 个 人 的 面孔 时 ， 首 先进 行 结构 编码 ， 然 后 将 以 观察 点 为 中 心 的 描 
述 传 递 到 表情 分 析 和 面部 语言 分 析 部 分 ， 其 中 嘴 与 舌 的 可 见 运动 描述 将 送 到 面部 语言 分 析 部 
分 ， 面 部 表情 的 客观 描述 则 送 到 表情 分 析 部 分 ; 将 与 表情 无 关 的 描述 送 到 面孔 识别 单元 。 面 
孔 识 别 单元 会 将 信息 输入 认 知 系统 ， 认 知 系统 将 根据 已 存储 的 面部 结构 编码 与 刚 输入 的 面部 
结构 编码 进行 匹配 。 表 情 分 析 和 面部 语言 分 析 部 分 都 与 认 知 系统 相连 ， 并 通过 认 知 系统 将 信 
息 送 入 个 人 号 份 节点 ， 个 人 身份 节点 再 根据 面孔 识别 单元 和 认 知 系统 传人 的 信息 对 刚 和 输入 的 
面孔 进行 识别 。 个 人 号 份 节点 的 识别 结果 输出 到 名 字 产 生 部 分 ， 产 生 相 应 的 人 名 。 

对 熟悉 面孔 的 识别 主要 取决 于 结构 编码 、 面 孔 识 别 单元 、 个 人 身份 识别 和 姓名 产生 四 个 
部 分 ， 而 对 于 不 熟悉 面孔 的 加 工 过 程 则 主要 涉及 结构 编码 、 表 情 分 析 、 面 部 语言 分 析 和 直接 
视觉 处 理 部 分 。 

Bruce 的 模型 对 面孔 的 各 种 信息 及 信息 之 间 的 关系 给 出 了 统一 的 解释 。 该 模型 的 另 一 个 
优点 是 ， 对 熟悉 与 不 熟悉 的 面孔 的 加 工 过 程 进 行 了 明确 的 区 分 。 但 是 ， 这 个 模型 也 存在 一 些 
局 限 性 。 如 这 个 模型 的 各 部 分 还 需要 进一步 的 细 化 ， 各 部 分 之 间 的 关系 还 需要 进一步 说 明 ， 
信息 流向 也 有 待 进一步 研究 。 另 外 ， 模 型 
对 认 知 系统 的 定义 很 模糊 ， 对 这 一 部 分 的 
细 化 将 会 很 困难 。 

后 来 ，Burton 和 Bruce 对 模型 进行 了 改 
进 ， 提 出 了 交互 激活 和 竞争 模型 ， 如 图 2- 
21 所 示 。 这 个 模型 采用 了 连接 主义 范式 ， 
面孔 识别 单元 (FRU) 和 姓名 识别 单元 
(Name Recognition Unit, NRU) 分 别 包 含 关 
于 面孔 和 名 字 的 信息 , 个 人 身份 节点 
(PIN) 是 进入 语义 信息 内 容 的 门户 ， 而且。 国 ? Boton M Bete ee ete RA 
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这 些 节 点 能 被 关于 人 名 的 言语 输入 以 及 面孔 输入 所 激活 ， 语 义 信 息 单 元 (Semantic Informa- 
tion Unit，SIU) 包含 名 字 以 及 与 个 体 有 关 的 其 他 信息 。 

这 一 模型 已 经 被 用 来 解释 从 面孔 识别 中 发 现 的 联想 启动 效应 。 该 模型 与 Bruce 模型 的 差 
别 是 ， 关 于 面孔 和 自传 信息 的 存储 问题 。 在 Burton 和 Bruce 的 交互 激活 和 苋 争 模 型 中 ， 这 两 
类 信息 均 存 储 在 语义 信息 单元 中 ， 而 在 Bruce 的 模型 中 ， 名 字 信 息 只 有 在 自传 信息 之 后 被 加 
工 。 

当 识别 一 副 面孔 照片 时 ， 可 以 利用 两 类 信息 : 一 是 关于 个 体 特征 的 信息 ， 如 眼睛 的 颜色 
等 ， 二 是 关于 这 些 特征 的 完 形 或 整体 安排 的 信息 。 很 多 面孔 识别 方法 都 是 基于 一 种 特征 范 
式 。 比 如 警察 经 常 利 用 拼图 认 人 法 来 协助 目击 证 人 识别 嫌疑 人 面孔 。 

据 Young, Hellawell, Hay 的 研究 报道 ， 在 面孔 识别 中 也 要 考虑 面孔 特征 的 完 形 方面 的 
信息 。 他 们 做 了 个 实验 ， 把 许多 著名 人 像 的 上 下 半 部 分 重新 组 合 构成 一 些 新 的 面孔 。 实 验 
中 ， 当 上 下 两 半 连 接 较 紧密 时 ， 在 命名 上 半 部 人 像 时 出 现 明显 困难 。 而 当 两 部 分 连接 不 紧密 
时 ， 成 绩 则 好 许多 。 因 此 可 以 假定 ， 两 半 部 分 靠 紧 所 产生 的 新 的 完 形 使 面孔 识别 受到 了 干 
扰 。 

目前 ， 大 多 数 面孔 识别 研究 均 利 用 照片 或 其 他 二 维 刺 激 。 因 此 这 种 研究 存在 两 方面 的 局 
限 性 。 第 一 ， 对 观察 者 来 说 ， 注 视 一 个 实际 的 三 维 面孔 会 比 一 个 二 维 表征 获得 更 丰富 的 信 
息 。 第 二 ， 人 类 面孔 通常 使 富 于 变化 的 、 通 过 面孔 表情 来 反映 情绪 状态 和 意见 等 。 这 些 随 时 
间 变 化 的 动态 信息 都 不 能 在 照片 中 体现 出 来 。 

认 知 心理 学 在 研究 人 脸 识别 的 过 程 中 发 现 了 面孔 失 认 现 象 。 面 孔 失 认 患 者 表现 为 丧失 对 
熟悉 面孔 的 识别 能 力 ， 而 对 其 他 对 象 的 识别 基本 完好 。 对 这 种 现象 有 两 种 解释 : 一 种 解释 认 
为 是 因为 对 某 一 特定 面孔 与 男 一 特定 面孔 进行 区 分 ， 比 区 分 其 他 对 象 ( 如 椅子 和 桌子 ) 需 
要 更 精细 的 识别 ; 另 一 种 解释 是 面孔 识别 涉及 一 些 其 他 对 象 识 别 不 需要 的 特殊 加 工 机 制 。 

面孔 识别 涉及 特殊 机 制 的 观点 可 以 用 双重 分 离 现象 来 证 明 。 双 重 分 离 是 指 一 些 患者 面孔 
识别 正常 ， 而 对 其 他 对 象 的 识别 存在 视觉 性 失 认 现象 ， 而 男 一 些 患 者 则 正好 相反 ， 对 非 面 孔 
对 象 的 识别 正常 ， 对 面孔 识别 存在 障碍 。 如 果 面 孔 识 别 真 的 涉及 一 些 特定 加 工 机 制 ， 那 么 在 
某 种 程度 上 ， 应 该 可 以 猜想 面孔 识别 和 其 他 对 象 识 别 分 别 与 大 脑 的 不 同 区 域 有 关 。Farah 和 
Aguirre 于 1999 年 对 相关 的 正 电 子 发 射 计 算 机 断层 扫描 (Positro Emission Tomography, PET) 
和 功能 性 核磁 共振 成 像 (funcntional Magnetic Resonance Imaging, fMRI) 研究 进行 了 元 分 析 
(Meta Analysis) ， 发 现 许 多 证 据 之 间 是 不 一 致 的 。 然 而 ，Kanwisher 、McDermott 和 Chun 在 
1997 年 对 面孔 、 拼 凑 的 面孔 、 房 子 和 手 的 大 脑 激活 区 域 进行 比较 时 ， 获 得 了 非常 清楚 的 关 
于 面孔 识别 机 制 的 证 据 。 他 们 在 右 侧 梭 状 回 (Fusiform Gyrus) 的 某 些 部 分 发 现 了 与 面孔 识 
别 有 关 的 特异 性 激活 ， 而 且 其 他 研究 者 也 已 重复 了 这 一 现象 。 

1991 年 ，Farah 和 McClelland 提出 了 一 个 基于 连接 主义 网 络 的 计算 机 模型 。 该 模型 对 已 
发 现 的 双重 分 离 详 细 进 行 了 解释 ， 还 对 物体 识别 所 牵涉 的 关键 过 程 给 出 了 一 个 简洁 解释 ， 同 
时 此 模型 也 有 助 于 解释 为 什么 生命 体 识别 障碍 患者 多 于 非 生命 体 识别 障碍 患者 。 

这 个 计算 机 模型 有 两 个 外 围 输 入 系统 和 一 个 语义 系统 组 成 ， 外 围 输入 系统 分 别 是 视觉 系 
统 和 言语 系统 ， 当 呈现 一 个 视觉 目标 时 ， 在 视觉 系统 内 将 会 产生 一 个 独特 的 兴奋 模式 。 当 呈 
现 一 个 目标 的 名 字 时 ， 在 言语 系统 内 也 将 会 产生 一 个 独特 的 兴奋 模式 。 两 个 系统 之 间 并 无 任 
何 直 接连 接 。Farah 和 McClelland 认为 ， 视 觉 和 言语 两 个 系统 通过 一 个 语义 系统 发 生 联系 ， 
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而 且 目 标 命名 涉及 对 从 视觉 系 统 进 入 语义 系统 ， 再 到 言语 系统 的 信息 的 加 工 过 程 。 

这 个 计算 机 模型 的 关键 特征 之 一 是 语义 系统 被 分 解 为 视觉 单元 (Visual Unit) 和 功能 或 
语义 单元 (Functional or Semantic Unit) 。 并 且 视 觉 单 元 的 数量 是 功能 单元 的 3 倍 ， 所 有 语义 
系统 内 的 单元 都 是 彼此 连接 的 。 视 觉 单元 草 含 识别 对 象 的 视觉 特征 信息 ， 功 能 单元 包含 关于 
对 象 的 用 途 及 对 象 之 间 相 互 影 响 方式 的 语义 信息 。 至 于 为 什么 语义 系统 内 视觉 单元 是 功能 单 
元 的 3 倍 ， 研 究 者 通过 实验 给 出 了 答案 。 向 被 试 对 象 给 出 生命 体 和 非 生命 体 的 词典 定义 ， 要 
求 被 试 对 象 判断 描述 是 视觉 性 的 还 是 功能 性 的 。 实 验 结果 表明 ，3 倍 以 上 的 描述 被 认为 是 视 
觉 性 的 。 尤 其 要 指出 的 是 ， 对 于 生命 体 来 说 ， 视 觉 性 描述 与 功能 性 描述 之 间 的 比率 是 7. 7: 1， 
而 非 生命 体 的 比率 仪 是 1.4: 1 。 

当然 ， 这 个 模型 也 有 一 些 缺 陷 。 首 先 ， 物 体 识别 所 涉及 的 过 程 肯 定 要 比 该 模型 所 描述 的 
复杂 得 多 。 模 型 对 语义 系统 是 怎样 被 巧妙 地 组 合 到 视觉 和 功能 子 系统 中 的 ， 没 有 清楚 地 论 
述 。 存 在 这 样 的 可 能 : 这 种 组 合 是 基于 类 别 特性 的 ， 不 同类 别 的 物体 分 别 存储 于 大 脑 的 不 同 
区 域 。Damasio 等 对 这 种 可 能 情况 进行 了 研究 。 实 验 中 ， 首 先 要 求 大 脑 损伤 患者 对 一 些 著 名 
面孔 、 动 物 和 工具 进行 命名 ， 随 后 把 同样 的 目标 命名 任务 分 配给 正常 人 做 测试 。PET 数据 显 
示 ， 大 脑 左 半球 的 不 同 区 域 分 别 与 面孔 、 动 物 和 工具 的 识别 有 关 ， 而 且 采 用 不 同 被 试 的 两 组 
实验 ， 其 结果 完全 一 致 。Damasio 的 实验 总 结 中 提 到 “与 人 类 有 关 的 词汇 的 提取 异常 ， 同 左 
{804% (Temporal Pole, TP) AX; 与 动物 有 关 的 词汇 的 提取 异常 ， 同 左 侧 颗 下 区 (Infero- 
temporal Region, IT) 有 关 ; 与 工具 有 关 的 词汇 的 提取 异常 ， 同 后 外 侧 杜 下 区 (Posterolateral 
Inferotemporal Region) 有 关 ; 图 2-22 所 示 显 示 了 这 些 相 关 大 脑 区 域 。 当 然 ， 可 以 肯定 地 说 ， 
大 脑 中 还 有 其 他 一 些 区 域 也 参与 物体 的 识别 。 此 外 ， 该 模型 还 存在 一 个 问题 。 该 模型 定义 语 
义 系统 中 视觉 和 知觉 单元 是 彼此 连接 的 ， 如 此 一 来 ， 对 于 严重 视觉 记忆 障碍 患者 ， 当 只 提供 
目标 的 名 字 时 ， 其 关于 功能 信息 的 记忆 也 应 该 很 差 。 事 实 上 ， 一 些 严重 的 视觉 记忆 障碍 患者 
表现 出 完整 的 功能 记忆 。 

Farah 提出 的 一 个 物体 识别 的 双 加 工 模 型 
可 用 来 理解 面孔 识别 。 该 模型 对 整体 和 局 部 加 
工 或 分 析 进 行 了 区 分 。 整 体 分 析 是 指 对 某 一 对 
象 的 完 形 或 整体 结构 进行 加 工 ; 局 部 分 析 是 指 
加 工 集中 于 某 一 对 象 的 关键 部 分 。Farah 认为 ， 
绝 大 多 数 的 对 象 识 别 都 涉及 整体 分 析 和 具备 分 
析 过 程 。 只 不 过 ， 面 孔 识 别 主 要 依赖 于 整体 分 
析 ， 而 文字 识别 更 依赖 于 局 部 分 析 。Farah 通 
过 实验 找到 了 支持 面孔 识别 主要 依赖 于 整体 分 
析 这 一 观点 的 证 据 。 实 验 设 计 如 下 : 先 向 被 试 
对 象 呈现 一 些 面孔 和 房子 的 素描 图 ， 然 后 要 求 
被 试 对 象 把 某 一 名 字 与 面孔 和 房子 一 一 对 应 起 
来 。 随 后 ， 向 被 试 对 象 呈现 整个 面孔 和 房子 或 ”图 2-22 脑 损伤 患者 的 大 脑 无 半球 中 ， 与 识别 车 
只 呈现 面孔 和 房子 的 一 个 单一 特征 (如 嘴巴 、 名 面 筷 、 动 物 和 工具 有 关 的 脑 区 
窗户 )， 要 求 被 试 对 象 判断 一 个 给 出 的 特征 是 否 属于 某 一 特定 个 体 (其 名 字 之 前 已 经 给 出 )。 
实验 结果 如 下 : 当时 现 完整 面 筷 时 ， 对 面孔 特征 的 识别 成 绩 要 比 只 呈现 单一 特征 好 得 多 。 与 
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之 相反 的 是 ， 对 房屋 特征 的 识别 在 整体 和 单一 特征 条 件 下 均 很 相似 。 这 一 结果 支持 了 整体 分 
析 对 面孔 识别 的 作用 要 比 对 非 面孔 物体 识别 的 作用 重要 得 多 的 观点 。 

Farah 还 通过 研究 面孔 倒置 效应 得 到 了 支持 其 模型 的 进一步 证 据 。 在 这 个 效应 中 ,识别 
面孔 的 能 力 在 刺激 以 倒置 的 方式 呈现 时 会 显著 下 降 。Farah 通过 实验 发 现 ， 当 被 试 对 象 为 正 
常人 时 会 出 现 面孔 倒置 效应 ， 而 面孔 失 认 患 者 则 出 现 了 相反 的 结果 ， 即 面孔 倒置 促进 面孔 识 
别 。 对 这 一 现象 ，Farah 是 这 样 解释 的 : 面孔 倒置 效应 发 生 的 原因 是 ， 正 常 个 体 对 正常 呈现 
面孔 的 完 形 或 整体 的 加 工 不 能 轻易 地 用 于 倒置 面孔 的 加 工 。 而 面孔 失 认 患者 运用 整体 或 完 形 
加 工 的 能 力 十 分 有 限 ， 所 以 他 们 不 能 表现 出 面孔 倒置 效应 。 

总 之 ，Farah 等 人 的 研究 提供 了 一 些 证 据 来 说 明 面孔 识别 通常 所 涉及 的 加 工 ， 在 某 种 程 
度 上 与 非 面孔 物体 识别 和 文字 识别 不 同 。Farah 的 双 加 工 模型 对 上 述 三 类 刺激 所 涉及 的 加 工 
的 异同 进行 了 论述 。 同 上 述 所 有 模型 一 样 ， 双 加 工 模型 也 不 是 完美 的 。Farah 的 双 加 工 模型 
只 是 从 相当 一 般 的 层面 ， 做 出 了 一 个 过 于 简单 化 的 说 明 。 例 如 ，Farah 认为 面孔 是 被 整体 识 
别 的 ， 但 有 些 证 据 表 明 ， 确 实在 大 脑 左 半球 系统 是 用 特征 分 析 的 方法 识别 面孔 的 。 此 外 ， 
Farah 没有 区 分 面孔 失 认 中 的 知觉 性 失 认 和 联络 性 失 认 ， 这 也 引起 了 一 些 问题 。 

综 上 所 述 ， 目 前 认 知 心理 学 对 面孔 识别 的 研究 已 有 一 些 成 果 。 观 察 者 可 从 面孔 获取 多 种 
信息 ， 而 熟悉 面孔 和 陌生 面孔 之 间 也 存在 重要 差别 。 研 究 者 已 经 发 现 了 对 面孔 进行 完 形 加 工 
的 证 据 ， 但 也 存在 成 分 加 工 的 证 据 〈 特 别 是 加 工 倒置 面孔 时 ) 。 已 有 证 据 表 明 ， 面 孔 失 认 现 
象 是 因为 特异 性 面孔 加 工 机 制 受 损 所 造成 的 ， 而 不 是 精细 辨别 能 力 缺 乏 的 原因 。 而 且 有 证 据 
表明 ， 面 孔 识 别 主要 涉及 整体 分 析 过 程 ， 文 字 识别 主要 涉及 局 部 分 析 过 程 ， 非 面孔 物体 识别 
则 两 者 兼 有 。 


2.6 ” 脑 科 学 关于 人 脸 的 研究 

















































































































2.6.1 “人 脸 识别 的 ERP 研究 


面孔 是 人 们 日 常生 活 中 最 常见 的 事物 ， 通 过 面孔 认 知 (Face Recognition and Perception ) 
这 种 基本 而 重要 的 社会 行为 ， 我 们 可 以 获得 人 的 许多 重要 的 社会 信息 〈 如 年 龄 、 性 别 、 种 
族 和 情绪 等 ) 。 对 面孔 认 知 的 研究 ， 不 但 有 助 于 使 我 们 从 本 质 上 了 解 面孔 认 知 加 工 的 基本 规 
律 和 特点 ， 对 许多 与 面孔 认 知 有 关 的 现象 (如 面孔 认 知 的 发 展 、 面 孔 认 知 的 倒置 效应 、 跨 
文化 效应 等 ) 进行 解释 ; 而 且 有 助 于 我 们 对 人 类 一 般 知 觉 加 工 模式 规律 的 认识 。 近 30 年 
来 ， 有 关 面 孔 认 知 研究 的 方法 主要 有 两 类 : 一 类 是 采用 传统 的 实验 心理 的 方法 进行 研究 ; 另 
一 类 是 采用 ERP (事件 相关 脑 电 位 ，Event Re lated Brain Potential), fMRI (功能 性 核磁 共振 
成 像 ) PET ( 正 电 子 发 射 计 算 机 断层 扫描 ) 等 脑 成 像 技 术 进 行 研究 。 本 节 将 对 面孔 认 知 
ERP 研究 及 其 目前 新 进展 进行 探讨 。 

面孔 认 知 的 ERP 研究 始 于 20 世纪 60 年 代 ， 其 研究 的 重点 是 想 通 过 ERP 技术 来 揭示 面 
孔 认 知 现象 的 内 在 规律 和 机 制 。1965 年 Sutton 采用 对 脑 电 的 平均 舍 加 法 发 现 了 与 心理 因素 
相关 的 内 源 性 成 分 的 P300 认 知 电位 后 ，Allision、Bentin 等 人 开始 通过 ERP 这 种 研究 方法 对 
人 的 面孔 认 知 机 制 进行 研究 ， 这 些 研究 成 果 主 要 有 : 中 当 给 被 试 对 象 呈 现 各 种 面孔 刺激 时 ， 
能 激发 一 个 负 向 波 (N170) ， 而 给 被 试 对 象 呈现 非 面 孔 刺激 时 则 不 能 ; @ 在 后 里 时 ( Posteri- 
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or Temporal) 的 N170 波幅 最 大 ， 而 且 右 半球 要 比 左 半球 的 波幅 大 ; (3 当面 孔 被 倒置 呈现 时 ， 
N170 在 时 间 上 会 有 延迟 ， 但 波幅 没有 明显 变化 ; 当 单 独 呈 现 眼睛 时 ， 激 发 的 N170 波幅 明 
显 大 于 呈现 整个 面孔 时 的 波幅 。 而 单独 呈现 时 子 和 嘴 时 ， 激 发 的 N170 波 在 时 间 上 会 有 约 
50ms AYER; @ 面 孔 内 部 特征 发 生 扭 曲 时 ， 引 发 的 N170 波形 与 正常 面孔 相似 。 根 据 以 上 结 
R, 广大 研究 者 认为 N170 波 是 反映 面孔 认 知 过 程 的 重要 的 神经 机 制 指标 。 

最 近 几 年 来 ,研究 者 在 以 往 结 果 的 基础 上 ， 又 进行 了 大 量 的 ERP 研究 ， 主 要 包括 以 下 
儿 个 方面 : 

l. 有 关 对 面孔 认 知 加 工 阶段 的 研究 

早 在 1986 ^E, Bruce 和 Young 根据 以 往 研 究 成 果 ， 提 出 了 著名 的 面孔 加 工 的 多 阶段 认 知 
模型 。 他 们 认为 ， 对 面孔 认 知 加 工 应 分 为 两 个 阶段 : 第 一 阶段 是 对 面孔 的 知觉 结 构 编 码 ， 这 
个 阶段 会 进行 面孔 特征 和 空间 结构 的 分 析 ， 包 括 两 种 编码 方式 : 一 种 是 静态 图 形 编码 ， 比 如 
面孔 照片 的 亮度 、 质 地 等 ; 另 一 种 是 动态 结构 编码 ， 主 要 指 的 是 对 面孔 空间 结构 的 编码 。 第 
二 阶段 ， 一 条 支 路 把 面孔 结构 表征 与 存储 在 面孔 识别 单元 (FRU) 里 的 面孔 结构 表征 进行 
比较 ， 特 征 匹 配 时 将 激活 相应 的 单元 ， 并 且 获 得 有 关 面 孔 的 语意 记忆 ， 完 成 最 终 的 面孔 识 
别 ; 而 男 一 条 支 路 根据 面孔 的 特征 进行 性 别 和 表情 的 加 工 。 

随后 ， 许 多 研究 者 采用 ERP 的 研究 手段 进行 了 大 量 的 实验 ， 对 多 阶段 认 知 模型 进行 验 
证 。 

2. N170 波 

1996 ^E, Bentin 等 人 在 对 正 立 的 面孔 、 倒 置 的 面孔 、 扭 曲 的 面孔 、 扳 立 的 面孔 特征 以 
及 非 面孔 刺激 引发 的 ERP 进行 比较 的 实验 中 发 现 ， 只 有 刺激 的 是 面孔 时 ， 才 会 在 腹 侧 里 叶 
后 部 和 脑 部 电极 TS 及 T6 处 引发 一 个 N170 波 ， 而 汽车 、 手 、 家 具 等 的 刺激 均 不 能 产生 N170 
W, MH. N170 波 不 但 在 正 立 的 面孔 中 出 现 ， 在 倒置 的 面孔 或 孤立 的 面孔 特征 中 也 能 出 现 。 
因此 他 们 认为 ，N170 波 反 映 了 在 面孔 识别 中 的 知觉 编码 阶段 的 特征 ， 而 不 是 后 期 的 知觉 加 
工 阶段 的 特征 。2000 年 ，Bentin 等 人 在 对 熟悉 、 不 熟悉 的 面孔 引发 的 ERP 进行 比较 的 实验 
中 发 现 ， 在 腹 侧 杜 叶 的 N170 波幅 和 潜伏 期 并 不 受 面孔 熟悉 度 的 影响 。 这 证 明 N170 波 反映 
的 是 面孔 早期 的 预 分 类 结构 编码 的 特征 。 

Eimer 在 2000 年 的 研究 发 现 ， 从 面颊 和 背面 方向 看 ， 引 发 的 N170 波 同 从 正面 和 侧面 的 
相 比 有 明显 的 削弱 ， 这 表明 N170 波 并 不 是 仅仅 由 整个 头 部 知觉 所 引起 的 。 缺 乏 内 部 特征 的 
面孔 引发 的 N170 波 同 缺乏 外 部 特征 的 面孔 引发 的 N170 波 均 会 出 现 波幅 削弱 和 潜伏 期 延迟 ， 
这 说 明 除了 内 在 特征 ，N170 波 还 对 面孔 的 外 部 特征 也 同样 敏感 。Cauquil 等 人 在 2000 年 采 
用 面孔 和 非 面孔 图 片 为 刺激 的 研究 记录 了 被 试 对 象 注意 单个 眼睛 或 者 闭 眼 的 面孔 时 的 N170 
波 。 他 们 的 实验 结果 表明 ，N170 波 对 于 面孔 的 潜伏 期 是 150ms 左右 ， 而 对 于 眼 是 174ms。 
然而 不 管 是 眼睛 或 面孔 的 刺激 ，N170 波 的 潜伏 其 和 振幅 均 不 受 目 标 / 非 目标 的 影响 。 这 个 发 
现 表 明 ，N170 波 代表 的 面部 加 工 的 早期 阶段 是 自动 的 和 不 受 选择 性 注意 影响 的 。 

3. P350, N400, P600 波 

1999 4E, Puce 等 人 通过 在 皮层 内 记录 ERP 23H RIER Dd p DI AL T 5 
面孔 识别 相关 的 脑 电 成 分 。 其 中 ， 在 腹 侧 枕 杜 叶 皮 层 处 记录 到 的 N200 波形 不 会 受到 面孔 熟 
悉 性 的 影响 ， 并 且 也 没有 表现 出 练习 的 习惯 化 效应 ， 这 表明 N200 波 可 能 反映 了 面孔 的 预 分 
类 知觉 分 析 阶 段 。 而 相反 ， 在 后 侧 和 前 腹 侧 匡 叶 皮层 处 记录 到 的 更 晚期 的 P350 波幅 会 受到 
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面孔 倒置 效应 的 影响 ， 因 此 他 们 认为 P350 波 产生 于 较 晚 期 的 面孔 加 工 过 程 识别 阶段 。 

在 2000 4E, Eimer 在 实验 中 给 被 试 对 象 呈 现 了 熟悉 的 面孔 、 不 熟悉 的 面孔 、 房 子 的 图 
片 ， 并 且 要 求 被 试 对 象 对 偶然 出 现 的 信和 号 一 一 手 的 图 片 做 出 反应 ， 记 录 被 试 对 象 看 各 种 图 片 
时 的 ERP 成 分 ， 结 果 首 先 证 实 了 Bentin 在 1996 年 得 到 的 结果 ， 同 时 他 还 发 现 ， 熟 悉 的 面孔 
会 在 300 ~500ms 之 间 潜 伏 期 中 引发 一 个 N400 波 ， 随 后 在 500ms 后 会 出 现 一 个 P600 波 ， 这 
一 现象 在 第 一 次 出 现 熟 悉 面孔 刺激 时 最 明显 ， 因 为 N400 波 和 P600 波 对 于 面孔 熟悉 性 的 敏 
感 ，Eimer 认为 它们 反映 了 面孔 认 知 和 识别 的 加 工 阶段 。 

综合 以 上 结果 可 以 看 出 ， 有 关 面 孔 认 知 加 工 阶 段 的 ERP 研究 基本 上 支持 了 Bruce 和 
Young 的 多 阶段 认 知 模型 ， 证 明 对 面孔 的 认 知 确实 存在 早期 结构 编码 和 晚期 面孔 认 知 的 不 同 
加 工 阶段 。 

4. 有 关 对 面孔 认 知 倒置 效应 的 研究 

面孔 倒置 效应 研究 是 面孔 认 知 中 的 一 个 非常 重要 的 方面 。 面 孔 倒置 效应 的 ERP 研究 主 
要 集中 在 面孔 正 立 和 倒置 呈现 时 ， 对 被 试 对 象 产生 的 N170 、N400 和 P600 三 种 波形 进行 比 
较 。 早 在 1996 年 ，Bentin 在 实验 中 就 已 经 发 现 ， 与 正 立 的 面孔 刺激 相 比 ， 倒 置 的 面孔 引发 
的 N170 波 的 潜伏 期 会 有 大 约 8ms 的 延迟 。 此 后 ，Rossion 等 人 在 1999 年 以 来 的 实验 中 也 证 
实 了 这 一 结果 ， 并 且 发 现 ， 对 于 倒置 的 其 他 物体 则 不 会 出 现 此 延迟 。 因 此 ，Rossion 等 人 认 
为 ， 这 个 N170 波 的 延迟 可 能 是 由 于 倒置 的 面孔 没有 提供 充足 的 结构 信息 。 同 样 ， 在 2000 
4E, Liu 等 人 采用 灰白 照片 作 实验 材料 ， 通 过 实验 记录 到 面孔 刺激 比 非 面孔 刺激 在 双 侧 枕 杜 
叶 (Bilateral Occipitotemporal) 处 引发 的 N170 波 具 有 更 大 的 波幅 ; 而 且 倒置 的 面孔 与 正 立 
的 面孔 引发 的 N170 波 相 比较 ， 在 波幅 上 没有 显著 差异 ， 但 是 倒置 的 面孔 引发 的 N170 波 的 
潜伏 期 有 13ms 的 延迟 ， 这 一 结果 也 与 以 往 实 验 的 结果 基本 一 致 。 

2000 年 ，Eimer 采用 正 立 、 倒 置 熟悉 的 面孔 和 不 熟悉 的 面孔 以 及 房屋 图 片 作为 实验 材 
料 ， 探 讨 了 面孔 认 知 中 倒置 对 N400 和 P600 的 波形 效应 。 实 验 表 明 : 与 正 立 的 不 熟悉 面孔 
相 比 ， 正 立 的 熟悉 面孔 引发 了 NAOO 和 P600 波 ， 而 倒置 的 熟悉 和 不 熟悉 的 面孔 通常 均 不 能 
引发 N400 和 P600 波 。 

总 之 ， 对 面孔 认 知 倒置 效应 研究 比较 一 致 的 结果 是 ， 由 于 倒置 的 面孔 没有 提供 充足 的 结 
构 信 息 ， 使 倒置 的 面孔 引发 的 N170 波 的 潜伏 期 出 现 延迟 。 

国内 外 对 面孔 认 知 的 ERP 研究 ， 通 过 探讨 不 同 条 件 下 对 面孔 识别 的 脑 成 分 〈 波 形 ) 特 
性 ， 验 证 和 丰富 了 Bruce fU Young 提出 的 面孔 识别 模型 ， 并 提供 了 电 生 理学 的 实验 证 据 。 对 
于 Bruce 和 Young 在 1986 年 提出 的 多 阶段 模型 来 说 ， 面 孔 认 知 的 事件 相关 电位 研究 结果 能 
基本 上 支持 这 个 模型 ， 但 由 于 这 个 模型 中 ， 认 知 系统 本 身 具 有 模棱两可 的 不 足 ， 因 此 在 今后 
的 研究 中 ， 对 这 个 模型 的 验证 还 需 做 进一步 的 探讨 。 比 如 在 第 二 阶段 中 ， 对 是 否 存在 面孔 言 
语 分 析 和 表情 分 析 的 平行 加 工 ， 目 前 还 少 有 研究 ， 而 且 表 情 分 析 是 否 一 定 发 生 在 结构 编码 时 
也 有 待 证实。 此 外 ， 以 往 的 研究 结果 表明 ， 梭 状 脑 回 对 面孔 的 反应 是 以 一 种 快速 、 强 制 的 神 
经 模式 出 现 的 。 但 这 种 模式 是 从 人 一 出 生 就 形成 了 的 ， 还 是 在 长 期 的 生活 经 历 中 形成 的 ， 目 
前 还 没有 得 到 实验 数据 的 证 实 。 最 后 ， 虽 然 以 往 面孔 认 知 的 研究 中 ， 已 经 对 面孔 认 知 中 的 结 
构 信 息 和 特征 信息 的 不 同 作用 、 倒 置 效 应 、 跨 种 族 效应 、 儿 童 认 知 发 展 特点 等 问题 进行 了 广 
泛 的 研究 ， 但 目前 大 多 数 研 究 都 是 通过 行为 实验 ， 以 正确 率 、 反 应 时 间作 为 实验 指标 进行 
的 ， 而 采用 ERP 技术 ， 从 脑 、 生 理科 学 的 层次 来 揭示 面孔 认 知 规律 的 研究 相对 较 少 。 因 此 ， 
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总 体 来 说 ， 对 面孔 认 知 规律 的 ERP 研究 有 助 于 从 更 深入 的 生理 层次 揭示 其 规律 ， 值 得 进 一 
步 研 究 。 


2. 6.2 ”表情 识别 的 ERP 研究 


面孔 是 人 类 表达 、 认 知情 感 的 重要 工具 和 途径 ， 正 确 的 表达 和 识别 面部 表情 是 人 类 生存 
的 一 项 重要 的 技能 。 所 以 人 们 运用 各 种 手段 研究 面孔 、 情 绪 、 大 脑 及 其 与 其 他 认 知 方面 的 关 
系 ， 其 中 事件 相关 脑 电位 (ERP) 技术 就 是 最 近 比 较 流 行 的 一 种 研究 方法 。 
事件 相关 脑 电 位 (ERP) 直接 反映 了 神经 的 电 活 动 ， 具 有 实时 性 和 无 创 性 的 特点 ， 它 将 
刺激 事件 、 心 理 反 应 和 脑 电 活动 有 机 地 联系 起 来 。 它 处 理 的 不 是 自发 放电 信号 ， 而 是 脑 对 特 
定 刺 激 的 特殊 反映 信号 ， 它 与 对 自发 电位 研究 相 比 ， 更 多 地 依赖 于 对 脑 内 部 功能 的 了 解 。 加 
之 它 是 与 某 个 确定 性 的 外 部 事件 紧密 联系 的 ， 因 此 为 提取 更 多 的 有 价值 信息 创造 了 一 种 特殊 
的 有 利 条 件 。ERP 技术 可 以 对 不 同 的 视觉 刺激 进行 分 类 ， 从 而 分 离 不 同 的 情绪 状态 ; 在 
ERP 测试 中 ， 也 不 一 定 需 要 被 试 对 象 做 出 反应 ， 可 以 用 来 测量 人 们 不 希望 表露 出 的 情感 态 
BE. ERP 在 脑 电波 与 心理 因素 之 间架 起 了 一 座 桥 梁 ， 被 誉 为 “观察 脑 的 高 级 功能 的 窗口 ”。 
这 些 特 点 使 ERP 在 人 脸 和 表情 的 研究 中 具有 独特 的 地 位 和 重要 的 意义 。 

最 近 的 脑 化 学 研究 和 电 生 理 研 究 结果 ， 揭 示 了 脑 中 枢 特 别 是 皮下 层 部 位 与 情绪 的 联系 。 
在 皮层 下 、 边 缘 系统 和 下 丘脑 埋藏 电极 的 实验 中 ， 发 现 了 一 些 部 位 与 积极 的 或 消极 的 情绪 相 
联系 。 著 名 的 奥 尔 兹 和 米 纳 尔 用 动物 按压 杠杆 的 实验 已 经 证 明 ， 边 缘 系 统 是 产生 情绪 体验 的 
中 心 。 和 情绪 生理 学 的 大 量 工作 已 经 一 般 地 确定 : 

1) 大 脑 皮层 对 情绪 起 调节 、 抑 制作 用 ; 

2) 边缘 系统 参与 情绪 体验 的 产生 ; 

3) 中 枢 各 部 位 的 功能 既是 定位 的 ， 又 兼 受 皮层 的 整合 ; 

4) 外 周 变 化 (如 肌体 、 内 脏 活动 的 变化 ) 反映 与 生命 过 程 密切 相关 的 一 般 唤醒 ， 尚 无 
确定 的 情绪 的 特定 外 周 反映 模式 ; 

5) 内 分 泌 系 统 与 自主 神经 系统 和 中 枢 神 经 系统 之 间 的 联系 直接 参与 情绪 活动 。 

当前 ， 研 究 者 们 已 形成 共识 ， 就 是 情绪 既 与 外 周 神经 活动 相关 ， 也 与 中 枢 活 动 相关 ， 而 
后 者 正 是 ERP 研究 关注 的 领域 ， 即 通过 脑 电 测量 来 收集 有 关 情 绪 的 电 生理 证 据 。ERP 测量 
的 一 般 程序 是 这 样 的 : 多 次 呈现 情绪 刺激 ， 同 时 记录 脑 电 信号 ， 双 加 并 平均 这 些 信和 号， 以 消 
除 自发 电位 的 影响 ， 由 此 得 到 事件 相关 脑 电 位 ， 分 析 情 绪 刺 激 与 ERP 电位 之 间 的 关系 ， 从 
而 得 到 有 价值 的 发 现 。 部 分 研究 直接 针对 情绪 本 身 ， 试 图 通过 对 不 同情 绪 状况 下 的 脑 电波 的 
观察 ， 揭 示 情 绪 活 动 的 神经 机 制 。 情 绪 ERP 试验 是 将 一 些 正常 人 分 成 不 同 的 组 ， 给 不 同 组 
的 被 试 对 象 呈现 不 同类 别 的 情绪 刺激 材料 ， 比 较 ERP 的 异同 ， 从 而 得 出 结论 。 刺 激 材 料 一 
般 从 视觉 或 /和 听觉 通道 呈现 。 在 视觉 材料 中 ， 人 情绪 性 面孔 是 最 为 常用 的 刺激 形式 。 从 情绪 
MASSIRA, AA EEL. BRUR. AE. UR. DORR RISA INA. RERRAEZK TS 
绪 的 面孔 又 可 以 按 相 等 的 物理 间距 分 为 若干 亚 型 ， 这 些 亚 型 组 成 的 连续 体 在 分 类 上 同属 于 一 
种 表情 。 有 人 已 经 成 功 地 编制 出 了 标准 情绪 面孔 系列 。 除 了 面孔 照片 ， 也 有 研究 者 使 用 简单 
的 面部 表情 简 笔 画作 为 刺激 材料 ， 并 得 到 与 照片 实验 类 似 的 实验 结果 。 从 维度 观点 来 看 ， 至 
少 应 该 从 效 价 (Valence) 和 唤醒 度 (Arousal) 这 两 个 维度 来 考察 情绪 问题 。 于 是 ，Lang 等 
编制 出 了 一 套 国际 情绪 图 片 系统 (International Affective Picture System, IAPS), HAREM 
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效 价 和 唤醒 度 等 方面 进行 标准 化 ,图片 内 容 包括 正 性 的 如 获胜 、 娱 乐 、 运 动 、 旅 游 等 场景 ， 
负 性 的 如 事故 、 自 然 灾害 、 垃 圾 、 鬼 怪 等 内 容 ， 以 及 日 常用 品 等 较为 中 性 的 画面 。 此 外 ， 情 
绪 性 词汇 也 是 常用 的 实验 材料 ， 可 以 通过 视觉 通道 呈现 。 

尽管 目前 已 有 众多 关于 情绪 的 ERP 人 研究 ,但 目前 仍 未 肯定 情绪 的 特异 性 成 分 。 人 研究 者 
们 只 得 到 一 些 与 情绪 相关 的 ERP 成 分 ， 根 据 不 同 实验 目的 和 实验 设计 得 出 不 同 解 释 。 表 2-1 
所 列 是 来 自 部 分 研究 的 一 些 例子 。 

















表 2-1 情绪 的 ERP 成 分 

























































































N170/VPP 表示 对 面孔 信息 的 结构 性 分 析 ， 反 映 表 情 知觉 的 类 别 效应 
P2 反映 精神 分 裂 症 病人 面部 表情 加 工 的 早期 神经 生理 学 损伤 
N200 对 新 出 现 的 、 负 性 情绪 的 面孔 敏感 
N2/P3a 反映 表情 的 类 别 知觉 效应 ， 受 偏差 刺激 和 标准 刺激 所 属 情 绪 类 别 的 调节 














正 性 和 负 性 情绪 均 可 引起 P300 的 变化 ,但 幅度 不 同 。 有 人 发 现 ， 在 正常 被 试 对 象 中 ， 负 性 刺 
激 能 比 正 性 刺激 诱发 更 大 的 P300 波幅 ， 提 示 负 性 情绪 面孔 都 能 调动 更 多 的 神经 结构 参与 情绪 信 






















































































P300 息 的 加 工 ; 另外 ,也 有 人 有 相反 的 发 现 ， 即 愉悦 刺激 比 非 愉悦 刺激 诱发 了 更 大 的 皮层 正 电位 。 
有 报道 说 ， 在 正常 被 试 对 象 中 不 同情 绪 刺 激 的 P300 潜伏 期 并 无 差异 ， 提 示 情 绪 刺 激 评价 时 间 是 
相对 恒定 的 
N400, LPC 在 抑郁 症 患 者 中 ， 负 性 情绪 词 诱发 的 波幅 比 正 性 情绪 时 小 〈 期 竺 效应 ) 
EML 有 可 能 被 作为 反映 情绪 正 负 属性 的 指标 
ERN s MEN 反映 在 有 速度 要 求 的 任务 中 犯错 或 遭受 损失 时 的 厌 亚 情绪， 动机 和 享乐 倾向 都 对 ERN 或 MEN 
有 重要 影响 

















ik: VPP—Vertex Parietal Positivity ， 顶 正 电压 ; LPC 一 Late Positive Component， 晚 期 正成 分 ; EML—Extrication of Mental 
Load, OEH YE; ERN 一 Error-Related Negativity， 错 误 相关 负 波 ; MFN 一 Medial Frontal Negativity ， 中 前 皮 
质 否 定性 或 内 侧 额 叶 负 波 。 

对 ERP 和 脑 磁 图 (MEG) 的 研究 指出 ， 面 孔 的 结构 编码 出 现在 170ms 左右 。 对 情绪 的 
分 析 和 对 面部 结构 的 编码 是 两 个 平行 的 过 程 ， 面 孔 特异 性 N170 成 分 不 受 面部 表情 的 影响 。 
Streit 等 用 模糊 面孔 和 清晰 面孔 作为 刺激 物 ， 除 了 产生 面孔 特异 成 分 N170 和 与 最 基本 的 视觉 
认 知 相对 应 的 P120， 他 们 还 发 现 当 任务 中 存在 需要 解码 的 情绪 时 ， 面 孔 在 240ms 左右 产生 
较 高 的 波幅 ， 这 也 许 反映 了 一 个 对 面部 表情 进行 解码 的 特殊 的 大 脑 加 工 过 程 。 然 而 ，Ros- 
sion 等 在 实验 中 得 到 了 不 同 的 结果 ， 他 们 给 被 试 对 象 呈现 正常 放置 和 倒置 的 视觉 刺激 ， 包 括 
人 类 面孔 和 新 奇 物体 (Greeble) ， 有 趣 的 是 N170 成 分 在 所 有 的 刺激 组 中 被 找到 ,但 是 只 有 
倒置 的 面孔 延迟 并 加 强 N170 〈 双 侧 的 ) 。 由 于 在 新 奇 物体 刺激 中 也 发 现 N170， 因 此 他 们 认 
为 N170 不 仅仅 是 面孔 的 特异 成 分 。 

ERP 实验 中 多 次 使 被 试 对 象 受 到 某 种 情感 刺激 ， 分 析 对 象 发 出 的 脑 电 信号 ， 从 而 确定 
不 同情 感 刺激 对 应 的 ERP 成 分 ,例如 情绪 刺激 会 诱发 PB00 (P3) 成 分 ， 且 不 一 样 的 情绪 诱 
发 P300 (P3) 的 波幅 大 小 不 同 ， 当 被 试 对 象 看 到 愉快 的 面孔 P300 (P3) 的 波幅 最 小 。 当 呈 
现 一 系列 面孔 图 片 时 ， 愉 快 的 面孔 引起 的 P300 波幅 最 小 ， 愤 怒 、 翡 伤 及 无 表情 的 面孔 图 片 
引起 的 波幅 相对 较 大 ，P300 的 区 域 显示 出 与 波幅 相似 的 变化 ， 但 P300 潜伏 期 的 变化 与 前 两 
项 有 所 不 同 ， 悲 伤 的 画面 使 P300 的 潜伏 期 最 长 。 
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一 般 实 验 都 用 静止 的 图 像 作为 刺激 物 ， 但 是 面部 表情 是 高 度 活动 的 信号 ， 为 了 解 静 态 和 





动态 的 面部 表情 是 否 存在 不 同 的 神经 解码 过 程 ，Kilts 将 情绪 信息 编码 在 一 个 面部 活动 过 程 
中 作为 刺激 物 ， 对 比 健康 人 在 面 对 愤 怒 、 高 兴 的 静态 和 动态 面部 表情 时 的 大 脑 活性 。 














面部 表情 与 真实 的 情绪 之 间 是 否 存在 必然 的 联系 ， 人 们 是 否 真正 能 通过 表情 正确 识别 出 











其 他 人 的 情绪 也 是 值得 探讨 的 问题 。 人 们 往往 由 于 社会 环境 的 影响 ， 表 情 与 情绪 并 不 统一 。 
人 们 通过 对 一 系列 表情 与 心理 的 对 应 分 析 指 出 ， 在 面部 表情 的 研究 中 ， 应 加 入 环境 因素 的 影 
响 。 在 面部 表情 识别 上 也 有 两 个 对 立 的 观点 ， 有 人 认为 表情 是 有 严格 界限 的 ， 也 有 人 则 认为 
面部 表情 认 知 是 更 加 阶段 性 的 ， 而 且 表情 被 认为 是 连续 的 。 
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面部 是 人 类 活动 的 非常 丰 


富 的 信息 源 ， 面 部 分 析 可 以 显示 








情绪、 调节 社会 行为 、 揭 示 大 


脑 的 功能 和 病理 学 的 相关 内 容 。 告 想 充 分 利用 面部 显示 来 提供 信息 ， 首 先 要 能 正确 、 可 徘 而 
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技术 ”和 “面部 肌肉 运动 编码 系统 ”等 。 














3.1 概述 


从 20 世纪 70 年 代 初 开始 ， 
人 研究 可 分 为 两 大 类 : 


伊 扎 德 zard) 等 人 的 工作 ; A— 


THE; 见 表 3-1, 








它们 。 本 章 介绍 了 目前 常用 的 几 种 面部 运动 的 测量 技术 ， 如 “面部 表情 编码 
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出 现 了 大 量 关 于 面部 表情 和 面部 动作 编码 系统 的 研究 。 这 
一 类 专门 涉 步 及 与 情结 活 动 有 再 搂 关系 的 面部 动作 ， 如 艾 克 曼 (Ekman), 








类 则 涉及 了 所 有 可 观察 到 的 面部 动作 ， 如 艾 克 曼 等 人 的 


表 3-1 脸 部 表情 的 动作 特征 具体 表现 




































































































































































































































































表情 Bk EE R 晴 脸 的 下 半 部 
D) RRK, EIRIAS, FIR 
1) EERE, DABA 
- pacto HM 皮下 落 下 颌 下 落 ， 嘴 张 开 ， 层 和 齿 分 开 ， 但 
VH. Hao JA. AL pa 
2) 眼 L 的 上 边 和 / 部 不 紧张 ， 也 不 拉 人 
uc ah (2) RENTREE EO RT ERU, UEH 
边 露出 来 
1) 眉毛 抬 起 并 皱 在 一 起 
嘴 张 ， 嘴 层 或 轻微 紧张 、 向 后 拉 ， 或 
恐惧 | 2) 额 类 的 皱纹 只 集中 在 中 | ERRAR, FIRRA Ro VS Hosen 
部 ， 而 不 横 跨 整 个 额头 COR stor 
1) ERRE 
en 2) FIRS LEM, Hel ERIGI E, 
REFR HIRS, WEZ 
厌恶 | 眉毛 压低 ， 并 压低 上 腿 险 Ter gen, aay geen tr 
Pes oe. ee 3) 鼻子 皱 起 
4) RIE 
X 1) 下 眼皮 拉 紧 ， 抬 起 或 不 抬 起 1) 展 有 两 种 基本 的 位 置 ， 紧 闭 ， 展 
1) 眉毛 一 起 ， 压 低 
HE PRA Mie en 2) RERE, JEEE 角 拉 直 或 向 下 ， 张 开 ， 仿 佛 要 喊 
| 3) mne, 可 能 鼓 起 2) 奥 孔 可 能 张大 
D 层 角 向 后 拉 并 抬 高 
1) 下 眼 险 下 边 可 能 有 煞 纹 、 可 能 | 2) 嘴 可 能 被 张大 ， 牙 齿 可 能 露出 
高 兴 | ES. MUTS 鼓 起 ， 但 并 不 紧张 3) ERAM BT — E Hos ws f 
2) 鱼尾纹 从 外 眼角 向 外 扩张 外 部 
4) Westin 
眉毛 内 角 皱 在 一 起 、 抬 高 ， 1) 嘴角 下 拉 
悲伤 AR AL AB A EIRE 
”| 带动 眉毛 下 的 皮肤 PE 2) 嘴角 可 能 颤 持 





























48 








这 些 研究 导致 了 面部 表情 测量 技术 的 问世 ， 在 表情 研究 中 ， 表 情 测 量具 有 极为 重要 的 意 
义 。 与 传统 的 方法 相 比 较 ， 现代 面 部 表情 测量 技术 具有 四 个 突出 的 优点 : 

1) 这 些 技术 所 测量 的 是 面部 肌肉 运动 本 身 ， 而 不 是 面部 所 给 予 观察 者 的 信息 。 

2) 严格 遵循 神经 解剖 学 原则 。 所 有 这 些 测量 技术 的 共同 特征 是 ， 它 们 均 以 面部 肌肉 的 
神经 解剖 学 特点 和 肌肉 活动 所 造成 的 面容 变化 (Appearance Change) 作为 测量 的 基础 和 目 
标 。 

3) 较 准 确 而 客观 ， 便 于 使 用 。 

按 上 述 原则 确定 的 测量 技术 将 情绪 功能 与 颜面 解剖 学 结合 起 来 ， 任 何人 只 要 经 过 有 关 的 
训练 ， 就 能 通过 肉眼 的 观察 去 识别 情绪 ， 而 不 必 使 用 像 肌 电 图 机 那样 的 专门 设备 。 

4) 某 些 测量 技术 将 表情 的 反应 时 间 和 持续 时 间 引 进 了 表情 测量 ， 因 此 它 能 够 测量 面部 
表情 的 动态 过 程 。 

美国 心理 学 家 艾 克 曼 在 20 世纪 70 年 代 末 先后 创立 了 “面部 表情 编码 技术 ”(FAST) 和 
“面部 动作 编码 系统 ” (FACS)， 伊 扎 德 大 约 在 同时 先后 提出 “最 大 限度 辨别 面部 肌肉 运动 
编码 系统 ” (Maximally Discriminative Facial Movement Coding System, MAX) 和 “表情 辨别 整 
体 判 断 系统 ” (System for Identifying Affect Expression by Holistic Judgment, AFFEX) 。 这 两 套 
表情 测量 系统 得 到 了 广泛 的 肯定 和 采用 ， 它 们 具有 如 下 特点 : 

第 一 ， 鉴 于 要 把 面部 表情 测量 建立 在 严格 客观 化 的 基础 上 ， 必 须 找 到 面部 运动 反应 的 物 
质 基础 。 因 此 确定 了 所 要 测量 的 必须 是 面部 肌肉 运动 本 里 ， 而 不 是 面孔 所 反映 的 情绪 信息 。 

第 二 ， 为 了 测量 面部 肌肉 运动 本 里， 必须 严格 遵循 神经 肌肉 解剖 学 基础 。 以 艾 克 曼 的 工 
作为 例 ， 他 把 面部 分 为 额 - 眉 区 、 了 眼 - 瞪 区 、 锚 正 - 口 层 区 三 个 部 位 。 按 照 面 部 肌肉 解剖 学 ， 刺 
激 一 块 块 肌肉 组 织 ， 引 起 反应 活动 ， 用 照相 和 录像 作 记 录 。 他 们 把 六 种 情绪 : mp. Des. 
厌恶、 愤怒 、 奴 惧 、 翡 伤 发 生 时 面孔 上 每 块 肌肉 的 活动 照片 与 每 种 情绪 相 匹 配 ， 辨 认 出 哪个 
面容 各 部 分 的 变化 是 由 哪 组 肌肉 运动 引起 的 ， 从 而 确定 出 每 种 情绪 的 面孔 肌肉 运动 组 合 标 
准 。 艾 克 曼 共 找 出 24 种 单一 肌肉 活动 单位 和 19 种 复合 肌肉 活动 单位 ， 通 过 对 这 些 肌 肉 活动 
的 详细 描述 ， 并 用 录像 记录 表示 出 来 。 人 们 经 过 学 习 这 套 技术 就 能 够 客观 地 标定 情绪 。 

艾 克 曼 的 面部 动作 编码 系统 、 伊 扎 德 的 表情 识别 整体 判断 系统 等 ， 是 目前 心理 学 中 面部 
表情 测量 中 主要 被 采用 的 标准 。 下 面 两 节 将 分 别 介绍 面部 表情 测量 技术 中 应 用 较 广 、 较 有 代 
表 性 的 面部 动作 编码 系统 和 最 大 限度 识别 面部 肌肉 运动 编码 系统 。 


3.2 面部 动作 编码 系统 




























































































3.2.1 概述 


面部 动作 编码 系统 (FACS) 是 艾 克 曼 等 人 在 总 结 过 去 对 面部 表情 评定 工作 的 基础 上 制 
定 出 的 一 个 尽 最 大 可 能 区 分 面部 运动 的 综合 系统 ， 它 是 迄今 为 止 最 为 详尽 、 最 为 精细 的 面部 
运动 测量 技术 ， 它 能 够 测量 和 记录 所 有 可 观察 到 的 面部 行为 。 它 是 最 早 研究 面部 表情 采用 的 
方法 之 一 。 很 多 的 方法 都 是 以 它 为 基础 的 。 美 国 心 理学 家 Ekman Paul 和 Friesen 较 早 地 对 脸 
部 肌肉 群 的 运动 及 其 对 表情 的 控制 作用 做 了 深入 研究 ， 于 1978 年 开发 了 面部 动作 编码 系统 
(FACS) ， 用 来 描述 面部 表情 和 研究 人 类 的 认 知 行为 。 
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他 们 根据 人 脸 的 解剖 学 特点 ， 将 人 脸 划分 成 大约 46 个 既 相 互 独立 又 相互 联系 的 动作 单 
元 (AU) ， 并 分 析 了 这 些 动作 单元 的 运动 特征 及 其 所 控制 的 主要 区 域 以 及 与 之 相关 的 表情 ， 
给 出 了 大 量 的 照片 加 以 说 明 。 这 种 方法 很 直观 ， 易 于 为 人 理解 ， 但 是 由 于 在 实施 过 程 中 需要 
专家 的 大 量 时 间 来 人 工 标记 录像 带 上 的 特征 运动 点 ， 并 且 需 要 100 多 个 小 时 的 训练 才能 得 到 
每 段 录 像 带 的 满意 结果 。 在 这 种 情况 下 ， 系 统 的 编码 速度 、 可 徘 性 、 精 确 性 和 实时 性 就 成 为 
其 广泛 应 用 的 阻碍 。 

面部 动作 编码 系统 的 使 用 手册 内 容 有 单一 和 复合 动作 单元 列表 、 和 针对 面容 变化 的 详细 描 
述 、 供 对 照 用 的 照片 和 影片 以 及 具体 的 使 用 指导 等 。 

Irfan A Essa 在 FACS 的 基础 上 进行 了 改进 ， 通 过 在 物理 模型 上 加 入 自动 的 肌肉 模块 ， 建 
Xp FACS + 系统， 这 个 系统 可 以 用 作 动态 建 模 和 运动 估计 。 在 进行 表情 分 析 时 ， 通 过 光 流 法 
分 析 视 频 流 中 的 脸 部 数据 ， 最 终 在 二 维 图 像 中 的 表情 识别 率 为 98% 。 

FACS 对 人 脸 肌 肉 各 部 分 动作 进行 了 完整 的 描述 。FACS 包含 46 个 基本 动作 单元 
(AU), ， 结 合 各 个 独立 的 动作 单元 能 够 产生 大 量 不 同 的 脸 部 表情 。 例 如 , 结合 AU12 + AUI3 
( 拉 嘴 角 ) 、AU25 + AU27 ( 张 开 嘴 ) 、AU10 ( 升 起 上 层 ) A AUL (REWIR) 产生 了 一 
个 幸福 的 表情 ， 当 然 还 有 其 他 笑 的 结合 方式 。 这 个 系统 已 经 被 作为 许多 表情 产生 方法 的 基 
础 ， 特 别 是 在 使 用 肌肉 模型 或 者 仿真 肌肉 的 动画 方法 中 。 为 了 产生 非常 仿真 的 人 脸 表 情 和 动 
画 ， 研 究 工 作者 已 经 提出 了 许多 模仿 人 脸 肌 肉 变化 的 模型 。 利 用 肌肉 向 量 和 由 线性 肌 和 括 约 
肌 了 驱动 的 径 向 函数 ，Waters 构造 了 一 个 相当 成 功 的 人 脸 网 格 变 形 模型 。Chadwick 等 人 使 用 
自由 变形 的 方式 在 一 个 多 层 结构 (包含 骨头 、 肌 肉 、 脂 肪 和 皮肤 ) 中 改变 人 脸 表 皮 动 作 。 
Nahas 等 人 的 样 条 表面 模型 能 够 产生 合成 的 人 脸 说 话 动作 变化 。Terzopoulos 等 人 提出 的 三 层 
可 变形 网 格 ( 皮肤、 脂肪 组 织 和 肌肉 ) 对 人 脸 细微 的 解剖 结构 和 动力 系统 进行 了 建 模 。Lee 
等 人 提出 了 一 个 简化 的 两 层 〈 真 皮层 和 肌肉 ) 物理 肌肉 模型 ， 该 模型 由 弹簧 连接 到 头颅 结 
Mj E. Ed 3-1 所 示 显 示 了 Lee 等 人 的 舱 入 在 一 个 一 般 人 脸 网 格 中 的 肌肉 纤维 。 物 理 肌肉 模型 
方法 的 缺点 是 需要 精确 的 建 模 和 复杂 的 参数 调整 。 

FACS 是 通过 自动 分 析 面部 活动 来 描述 面部 动作 的 一 种 新 方法 。 它 的 提出 ， 主 要 目的 是 
为 了 开发 一 个 全 面 的 系统 ， 来 辨别 所 有 的 可 以 观察 到 并 能 够 区 别 的 面部 运动 。FACS 源 自 对 
面部 运动 的 解剖 学 的 分 析 ( 见 图 3-1)， 既 然 每 一 种 面部 运动 都 是 肌肉 活动 的 结果 ， 那 么 如 
果 能 得 知 面部 发 生 可 见 的 变化 时 ， 对 应 的 每 一 块 面部 肌肉 是 怎么 运动 的 ， 自 然 就 可 以 获得 一 
个 全 面 的 面部 运动 描述 系统 。 利 用 这 个 知识 ， 我 们 也 就 可 以 分 析 基 于 最 小 动作 单元 的 面部 运 
动 。 

在 艾 克 曼 等 人 提出 的 面部 动作 编码 系统 (FACS) 中 采用 46 个 能 够 独立 运动 的 表情 动作 
单元 。FACS 把 脸 部 运动 分 解 为 肌肉 动作 单元 CAU) 描述 面部 动作 ， 这 些 单元 与 使 面部 表 
情 改变 的 肌肉 结构 紧密 相连 ， 在 这 个 系统 中 还 定义 了 六 种 最 基本 的 表情 : WOW. EB. UA 
恶 、 慎 你、 高 兴 、 悲 伤 以 及 33 种 不 同 的 表情 倾向 ， 说 明了 具有 这 六 种 表情 的 人 脸 特 征 与 无 
表情 的 人 脸 特 征 相 比 有 相对 独特 的 肌肉 运动 规律 ， 后 来 进一步 的 研究 大 多 数 都 是 在 FACS 的 
基础 上 构建 人 脸 表情 模型 ， 所 以 说 这 一 系统 的 提出 具有 里 程 碑 的 意义 。 

可 以 说 ,心理 学 及 生物 学 的 发 展 与 计算 机 识别 能 力 的 提高 是 一 种 相辅相成 的 关系 : 一 方 
面 通 过 对 人 类 心理 / 神经 感知 和 人 脑 的 研究 ， 可 以 提高 机 器 的 识别 能 力 ; 另 一 方面 又 可 以 通 
过 机 器 的 识别 能 力 ， 进 一 步 深入 探索 人 类 心理 / 神经 感知 和 人 脑 感知 的 过 程 。 
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图 3-1 FACS 把 脸 部 运动 分 解 为 肌肉 运动 

FACS 的 一 个 限制 是 ， 它 只 处 理 那些 清晰 可 见 的 脸 部 运动 ， 而 忽略 了 那些 不 可 见 的 脸 部 
变化 (比如 部 分 肌肉 的 紧张 或 强直 性 拉 伸 ) 和 并 不 影响 脸 部 动作 区 分 的 、 过 于 细微 的 变化 。 
FACS 同样 不 包括 那些 非 运动 的 可 见面 部 变化 ， 比 如 皮肤 颜色 的 变化 ， 这 一 点 在 黑白 图 像 中 
一 般 是 看 不 出 来 的 ， 与 此 类 似 的 还 有 : 面部 出 汗 、 流 泪 、 超 疙 将 ， 以 及 那些 永久 性 的 面部 特 
征 。 

FACS 的 使 用 者 必须 学 习 基 于 肌肉 的 面部 运动 机 制 ， 而 非 仅 仅 运动 结果 或 静态 描述 。 它 
强调 的 是 运动 的 模式 、 面 容 变 化 的 本 质 所 在 。 可 见 的 活动 通过 皮肤 的 运动 、 面 部 特征 的 瞬间 
的 形态 和 位 置 的 变化 ， 皮 肤 的 聚集 、 脱 胀 、 裙 皱 等 来 描述 。 

研究 开发 FACS 的 第 一 步 ， 就 是 通过 研究 各 种 各 样 解剖 学 来 发 现 最 小 的 面部 单元 。 人 研究 
人 员 和 硕 望 找到 一 系列 独立 运动 的 肌肉 ， 并 且 将 肌肉 的 运动 与 面容 的 变化 对 应 起 来 。 然 后 ， 他 
们 检查 了 照片 中 的 每 一 张 人 脸 ， 打 乱 照 片 的 顺序 使 其 不 能 够 被 分 辨 出 哪 块 肌肉 运动 ， 目 的 是 
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为 了 决定 是 否 所 有 的 肌肉 的 独立 运动 都 能 够 被 分 开 。 值 得 注意 的 是 ， 人 研究 人 员 将 这 些 测 量 单 
位 称 为 动作 单元 而 不 是 肌肉 单元 ， 因 为 一 个 动作 单元 是 区 分 面容 变化 的 一 个 整体 ， 它 既 可 以 
是 几 块 肌肉 的 混合 ， 也 可 以 是 从 一 块 肌肉 中 分 离 的 一 部 分 。 

比如 ， 控 制 眉毛 上 拾 的 额 部 肌肉 (Frontalis Muscle) 可 以 被 分 离 为 两 个 动作 单元 ， 内 侧 
的 肌肉 控制 内 眉 角 的 上 择 ， 外 侧 的 肌肉 控制 外 应 角 的 上 拾 。 

在 实际 测量 时 ， 以 面容 活动 为 单位 ， 称 为 动作 单元 (AU)。 一 个 单一 的 动作 单元 可 以 包 
括 一 块 或 几 块 肌肉 组 织 。 这 些 单元 与 使 面部 表情 改变 的 肌肉 结构 紧密 相连 。FACS 共 列 出 了 
28 种 单一 动作 单元 〈 见 表 3-2) 和 19 种 复合 动作 单元 。 可 根据 各 个 动作 单元 之 间 的 主导 或 
次 要 、 竞 争 或 对 抗 的 关系 ， 从 而 规定 这 种 情形 下 的 测量 规则 和 方法 。 

表 3-2 FACS 的 单一 动作 单元 













































































编号 FACS 中 名 称 面部 肌肉 实 Bil 
AUI WEDER AAWL, PD A L3 
AU2 额 眉梢 上 拾 额 肌 、 外 侧 F- A 
AU4 &UE Ia EEKE BRAWL. SN | * all 
AUS EIR AG E46 Tel A YL i FS 























AUG m EH 眼 环 肌 -一 _— | 
AU? 眼 瞪 紧凑 眼 环 肌 Ls 











































































































AU9 BU PUEL, PEA zara 
AUIO 升 起 上 层 PSL , — 
AU BRR MI gza 
AU12 口角 后 拉 口角 迁 缩 肌 = 
AU13 TSU 口角 上 提 肌 | = 1 
AU14 | IRE (酒窝) 笑 肌 DN ] 
AUIS 居 角 下 压 Hf 
AU16 FEFE 下 层 降 肌 Lh. 














AUI7 FE ER 上 提 肌 es | 














52 













































































(5) 
编号 FACS 中 名 称 面部 肌肉 Sc ffl 
= 
AUIS FUE E EARI AARI b. = A 
A | s 
AU20 口 层 前 伸 口角 收缩 肌 | P 
: "m 
AU EREK E iS 
AU23 口唇 紧 闭 口 环 肯 ` Er | 
AU24 OEZ HX 长 — d 
AU25 WIKI 层 压 肌 、 额 提 肌 放松 be.4 

















AUS TATE BEL, SERIU Wss=4 
AU27 口 前 伸 RI, ZE = | 


AU28 — | UBL (R) HR " > d 









































《面部 动作 编码 系统 使 用 手册 》 是 一 个 详细 的 技术 手册 ， 说 明了 如 何 从 肌肉 运动 的 角 
度 对 面部 行为 进行 分 类 ， 也 就 是 如 何 把 肌肉 运动 与 面部 变化 相对 应 。 使 用 手册 内 容 有 : 单一 
和 复合 动作 单元 列表 ， 它 利用 文字 描述 、 静 态 图 片 、 数 字 视 频 来 前 明 每 一 种 面容 变化 。 行 为 
科学 家 、CG 动画 设计 者 和 计算 机 学 家 对 模式 识别 的 程序 实现 感 兴趣 ， 而 其 他 学 者 和 科研 人 
员 则 利用 FACS 指导 他 们 的 专业 研究 ， 重 点 在 于 精确 地 描述 面部 的 表现 以 及 是 哪些 肌肉 引发 
了 这 些 表现 。 


3.2.2 FACS 的 特点 与 应 用 


艾 克 曼 等 人 提出 的 最 广泛 被 采用 的 、 视 觉 可 分 的 FACS， 是 人 脸 上 所 有 导致 面部 运动 的 
动作 单元 的 枚 举 。 当 一 些 肌 肉 产 生 了 不 只 一 个 动作 单元 时 ， 这 个 动作 单元 与 肌肉 单元 不 是 一 
一 对 应 的 。 然 而 ， 用 这 种 “僵化 ”的 运动 描述 来 编码 的 运动 系统 是 不 很 令 人 满意 的 。FACS 
有 两 个 主要 弱点 : 中 动作 单元 是 纯粹 的 局 部 化 的 空间 模板 。 真 实 的 运动 几乎 从 来 没有 完全 局 
部 化 的 ; 艾 克 曼 本 人 把 这 些 运动 单元 描绘 成 非 自然 类 型 的 脸 部 运动 ; @ 没 有 时 间 描 述 信息 ， 
只 是 一 个 启发 式 信 息 。FACS 中 数据 的 分 析 只 是 单纯 地 描绘 动作 单元 (AU ) ， 或 者 把 FACS 
通过 字典 规则 转化 成 情绪 。 对 此 而 言 ， 现 在 的 系统 只 简单 地 应 用 了 线性 的 鳃 加 。FACS 的 其 
他 局 限 是 : 不 能 精确 描绘 眼睛 、 嘴 层 的 运动 ; 不 能 描绘 连贯 一 致 性 运动 。 尺 管 在 计算 机 图 形 
学 中 使 用 基于 肌肉 的 模型 组 和 了 一 些 问题 ,但 此 方法 还 是 太 简 单 ， 不 能 精确 描绘 真实 的 脸 部 
运动 。 

FACS 是 一 种 基于 人 工 观测 的 编码 系统 ， 旨 在 区 分 人 脸面 部 特征 的 微小 变化 。 通 过 观察 
慢 动作 的 人 脸 行为 录像 ， 培 训 过 的 观测 人 员 可 以 根据 动作 单元 ， 对 所 有 的 面部 行为 进行 
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FACS 编码 。 在 编码 时 ， 把 面部 可 见 的 变化 划分 为 〈 块 区 域 : JAG. ARAB Se FL TAM 
纹 、 酉 头 、 面 天、 嘴唇 、 下 巴 、 膀 子 。 对 每 一 块 区 域 的 可 见 变 化 都 有 精细 区 分 的 编码 ， 它 们 
的 组 合 构成 了 最 后 的 编码 。FACS 的 某 些 特定 组 合 代表 了 某 些 特定 的 表情 ， 在 评价 表情 变化 
时 ， 对 人 脸 表情 与 FACS 特定 组 合 之 间 的 对 应 关系 进行 了 探索 ， 总 结 出 了 一 定 的 规律 ， 具 体 
数据 见 表 3-3 。 











表 3-3 人 脸 表 情 视 频数 据 库 




























































































被 拍摄 对 象 姿态 正面 、 偏 正面 、 侧 面 
对 象 数目 70 情感 类 表情 8 类 、500 段 
男 7396 说 话 类 表情 23 类 、500 段 
nis AU 典型 组 合 
人 种 黄种 人 大 笑 AU6 + AU12 + AU25 
戴 眼镜 的 对 象 0. 07% 微笑 2115 

图 像 序列 吃惊 AUI + AU2 + AUS +AU27 
单 张 图 片 640 x480 像素 ，24 位 彩色 厌恶 AU4 + AU7 + AU9 + AU17 
视频 速率 30 帧 /s 或 AU4 + AU7 + AU14 
视频 长 度 1.3 ~3.4s I ng. AU45 


3.2.3 FACS 的 扩展 与 改进 


值得 注意 的 是 ，FACS 只 是 利用 解剖 学 原理 对 面部 各 部 位 进行 测量 ， 还 不 是 对 情绪 的 测 
Ht; 但 是 艾 克 曼 等 人 于 1978 年 还 提出 : FACS 中 特定 动作 单元 的 混合 可 以 表示 人 类 六 种 最 基 
ASHI, BIER E B, DOE. ear. SATIN SA Ze FEA E FACS 的 一 部 
分 ， 它 是 由 一 个 单独 的 系统 进行 编码 的 ， 比 如 1984 年 提出 的 情绪 面部 动作 编码 系统 (Emo- 
tion FACS EMFACS) 或 1992 年 提出 的 FACS 解释 词典 (FACS Interpretive Dictionary) 。 该 词 
典 中 表情 模板 见 表 34。 
































表 3-4 FACS 解释 词典 中 表情 模板 























K 情 创 造 原 型 

愤怒 AU4 + AUS + AU7 +AU15 + AU24 

厌恶 AU9 + AUIO + AU17 

TUR AUI + AU2 + AU4 + AUS + AU7 + AU20  AU25 
高 兴 AUG + AU12 + AU25 

悲伤 AU1 + AU4 + AU7 + AU15 + AU17 

惊奇 AUI +AU2 + AUS + AU25 + AU26 














由 于 FACS 当中 没有 包含 情绪 信息 ， 用 数据 的 分 析 知 识 单纯 地 描绘 动作 单元 ， 或 者 把 
FACS 通过 字典 规则 转化 成 情绪 。 根 据 表情 图 像 序 列 的 特点 ， 提 出 了 FACS” (FACS 转换 ) 
的 表情 编码 : 首先 根据 人 脸面 部 的 结构 特征 ， 建 立 物 理 -肌肉 模型 ， 其 次 ,根据 人 脸面 部 表 
情 的 运动 分 析 ， 确 定 表情 的 主要 特征 区 域 ， 最 后 ， 在 特征 区 域内 估计 面部 表情 的 运动 场 ， 从 
而 计算 特征 流 ， 由 表情 的 图 像 序 列 得 到 特征 流 序列 。 

基于 FACS” 的 表情 编码 也 就 是 把 动作 单元 的 运动 转化 为 基于 物理 结构 和 肌肉 模型 的 特 
征 流向 量 序 列 来 对 眼 部 和 嘴 部 特征 序列 分 别 进行 表情 编码 ， 相 应 的 运动 丝 是 基于 FACS 规则 
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的 ， 同 时 克服 了 FACS 的 弱点 。 从 生理 学 角度 上 ，FACS ”的 表情 编码 能 够 合理 而 真实 地 描 
绘 人 脸 的 面部 运动 、 符 合 人 脸面 部 肌肉 的 物理 特性 和 生物 动力 学 特征 ; 从 心理 学 角度 ， 能 够 
精确 表示 人 类 的 情绪 在 面部 上 的 反映 ， 即 表情 在 计算 机 视觉 领域 上 是 可 视 化 的 和 计算 的 。 

后 来 ， 研 究 者 们 进一步 揭示 了 动作 单元 与 肌肉 运动 之 间 的 关系 ， 提 供 了 表情 识别 的 心理 
学 方面 的 依据 。Irfan A Essa 等 人 提出 了 新 的 面部 动作 编码 系统 命名 为 FACS + ， 它 基于 物理 
和 几何 模型 ， 用 模板 匹配 的 方法 识别 表情 。 针 对 PACS 的 两 个 主要 弱点 : 中 运动 单元 是 纯粹 
的 局 部 化 的 空间 模板 。@) 没 有 时 间 描 述 信息 ， 只 是 一 个 启发 式 信息 。 其 中 ，FACS 不 包含 情 
绪 信 息 ， 数 据 的 分 析 只 是 单纯 地 描绘 动作 单元 (AU), RAJE FACS 通过 字典 规则 转化 成 情 
绪 。 国 内 的 研究 中 提出 了 FACS”， 即 FACS 转换 的 表情 编码 ， 把 动作 单元 的 运动 转化 成 基于 
物理 和 肌肉 模型 的 运动 特征 流向 量 序列 来 对 表情 编码 ， 相 应 的 运动 解释 基于 FACS 的 规则 ， 
同时 克服 了 单纯 PACS 的 弱点 。 


3.3 ”最 大 限度 辨别 面部 肌肉 运动 编码 系统 
































3.3.1 伊 扎 德 与 MAX 


前 面 讲 到 的 面部 动作 编码 系统 只 是 利用 解剖 学 原理 对 面部 各 部 位 进行 测量 ,还 不 是 对 情 
绪 的 测量 。 为 了 对 情绪 进行 解释 ， 伊 扎 德 曾经 提出 了 两 个 互 为 补充 的 测量 系统 ， 即 最 大 限度 
辨别 面部 肌肉 运动 编码 系统 (MAX) 和 表情 辨别 整体 判断 系统 CAFFEX) 。 最 大 限度 辨别 面 
部 肌肉 运动 编码 系统 是 为 保证 客观 性 和 精确 性 的 微观 分 析 系 统 ， 它 以 面部 肌肉 运动 为 单位 ， 
是 用 以 测量 区 域 性 的 面部 肌肉 运动 的 精确 图 式 。 表 情 识 别 整体 判断 系统 是 保证 有 效 性 的 客观 
分 析 系 统 ， 它 提供 的 是 关于 面部 表情 模式 的 总 概貌 。 

伊 扎 德 是 当代 美国 和 国际 著名 的 情绪 发 展 研究 专家 。 他 关于 婴儿 情绪 发 展 的 研究 及 据 此 
提出 的 情绪 分 化 理论 ,在 当代 情绪 研究 中 有 很 大 的 影响 。 伊 扎 德 运用 录像 技术 和 两 套 面部 肌 
肉 运 动 与 表情 模式 测 查 系统 ， 将 新 生 婴 儿 的 面部 表情 进行 了 全 面 、 详 细 的 录像 ， 并 进行 了 精 
细 、 深 入 的 分 析 ， 提 出 了 人 类 婴儿 在 其 出 生 时 ， 就 展示 出 了 各 种 不 同 的 面部 表情 和 情绪 ， 它 
们 是 惊奇 、 痛 音 、 厌 恶 、 最 初步 的 微笑 和 兴趣 等 五 种 。 婴 儿 在 4 ~6 周 时 ， 出 现 社会 性 微笑 ; 
3 ~4 个 月 时 ， 出 现 侍 经、 悲伤 ; 5 ~7 个 月 时 ， 出 现 惧怕 ; 6-8 TAR, WBA; 半 岁 ~ 
1 岁 时 ， 出 现 依恋 、 分 离 伤 心 、 对 陌生 人 疏 惧 ; 1 RAC, HBA. BER. SR. f 
虑 、 内 次 和 同情 等 。 

伊 扎 德 从 对 情绪 情境 作 自 我 评估 的 众多 数据 中 进行 第 选 ， 确 定 了 四 个 维 量 : 愉快 度 、 紧 
张 度 、 激 动 度 和 确信 度 。 其 中 ,愉快 度 表示 主观 体验 的 享乐 色调 ;紧张 度 和 激动 度 均 表示 情 
绪 的 神经 生理 激活 水 平 ， 激 动 度 表 示 兴 奋 的 程度 ， 而 紧张 度 表示 个 体 对 情绪 情境 的 突然 出 现 
缺乏 预料 和 缺少 准备 的 程度 ;确信 度 表示 个 体 胜任 、 承 受 感情 的 程度 。 伊 扎 德 的 四 维 说 根据 
客观 测量 ， 在 一 定 程 度 上 与 汉 特 的 三 维 说 相 一 致 。 伊 扎 德 按照 他 所 制订 的 维度 评定 量 
(DRS) 和 分 化 情绪 量 表 (DES) 可 对 感情 检验 进行 较 准确 的 评 佑 。 

伊 扎 德 的 特殊 贡献 在 于 ， 编 制 了 面部 肌肉 运动 和 表情 模式 测 查 系统 (最 大 限度 辨别 面 
部 肌肉 运动 编码 系统 和 表情 辨别 整体 判断 系统 ) ， 给 表情 识别 提供 了 一 个 客观 依据 。 他 把 面 
部 分 为 三 个 区 域 : 额 眉 - 鼻 根 区 、 眼 - 鼻 - 下 区、 口唇 -下 巴 区 ， 共 列 出 29 种 肌肉 动作 单元 ， 编 
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码 成 号 ， 表 情 是 由 面部 这 三 个 区 域 的 肌肉 运动 组 合 而 成 的 。 例 如 : No. 25 Ru Tu 


压 、 聚 拢 ; No. 33 WRAK- MIK; No. 54 为 口 层 区 - 口 长 大 呈 


来 ， 从 AFFEX 中 辨别 为 慎 经 的 表情 。 


伊 扎 德 的 研究 较 之 前 人 的 研究 ， 无 论 在 科学 性 和 可 测 性 上 都 大 大 提高 了 一 步 ， 每 一 种 新 





出 现 的 情绪 反应 都 有 一 定 的 具体 、 客 观 指 标 ， 易 于 鉴别 、 


3.3.2 MAX 的 主要 内 容 


最 大 限度 辨别 面部 肌肉 运动 编 


区 ; @ 
编 成 号 码 〈 见 表 3-5 ) , 
动 编码 系统 可 以 辨别 

的 痛苦 等 多 种 基本 情绪 。 








兴趣 、 





























WR, Dor. 








rA 





判断 。 





码 系统 将 人 的 面部 划分 为 : DERD: 
中- 层 - 下 巴 区 三 部 分 ， 并 包括 29 个 相对 独立 的 外 貌 变 化 的 活动 单元 。 

通过 对 三 个 部 分 外 貌 变 化 的 评分 及 
a5 Di . 


综合 ， 最 大 F 
THR 厌恶 ` ARE 








E, 


三 个 组 合 起 





ORV 


这 些 单位 分 别 





民 度 辨别 面部 肌肉 运 
惧怕 和 生理 不 适 引起 


表 3-5 最 大 限度 辨别 面部 肌肉 运动 编码 系统 (MAX) 面部 运动 分 区 记录 及 编号 


a) BUR 










































































































































































编号 JH 18 Bg 
No. 20 EGG EISE 长 横 纹 或 增 厚 BRIE 
No. 21 一 条 眉 比 男 一 条 眉 拾 高 
No. 22 EH. Fe 短 横 纹 BRIE 
No. 23 内 角 上 抬 、 内 角 下 呈 三 角形 眉 角 上 部 额 中 心 有 皱 纹 ARTE 
No. 24 聚拢 、 眉 间 呈 竖 直 纹 
No. 25 PR, R fed Pa] Sk i eR RE 增 宽 
b) 眼 - 鼻 - 颊 区 
编号 IR 3i 
No. 30 上 眼 瞪 与 眉 之 间 皮 肤 拉 紧 、 眼 睁 大 而 圆 ， 上 眼 上 险 不 抬 高 
No.31 RARE, EIRE E 
No. 32 H FREIRA 
No. 33 双眼 斜视 或 变 罕 ia 
No. 36 向 下 注视 、 和 斜视 
No. 37 紧 闭 
No. 38 EF 
No. 39 向 下 注视 、 头 后 倒 
No. 42 鼻梁 皱 起 〈 作 为 54 和 59B 的 附加 线索 ) 
c) 口 层 -下 巴 区 

编号 H-E 

No. 50 张 开 、 张 四 

No. 51 张 开 、 放 松 

No. 52 口角 后 收 、 微 上 抬 

No. 53 张 开 、 紧 张 、 口 角 向 两 侧 平 展 
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(ER) 
编号 口 - 层 
No. 54 3KJF. BEJE 
No. 55 张 开 、 紧 张 
No. 56 AA F2r Pa, RRR RS a E46 
No. 59A = No. 51/No. 66 张 开 、 放 松 、 舌 前 伸 过 齿 
No. 59B = No. 54/ No. 66 张 开 、 呈 矩形 、 舌 前 伸 过 此 
No. 61 Jg] —7r E468 
No. 63 下 层 下 降 、 前 伸 
No. 64 下 层 内 卷 
No. 65 口 层 缩 拢 
No. 66 aH 
Mc FR SESE TB LP E A A A PLR YN: 第 一 步 ， 评 分 者 三 次 观看 面 





























部 表情 的 录像 ， 每 次 辨认 面部 一 个 部 位 的 肌肉 运动 ， 并 记 下 相当 区 域 的 面容 变化 及 出 现时 间 
(比如 额 眉 区 的 双 眉 下 压 、 聚 拢 ) ; 第 二 步 ， 将 记录 下 来 的 面容 变化 同 可 观察 到 的 动作 单元 
的 组 织 相对 照 ， 辨 别 出 独 立 的 情绪 或 几 种 情绪 的 组 合 。 

最 大 限度 辨别 面部 肌肉 运动 编码 系统 的 材料 包括 一 本 手册 和 一 套 录像 。 手 册 包 括 面部 肌 
肉 的 详细 分 类 、 肌 肉 组 织 的 位 置 分 布 、 肌 肉 活动 编号 列表 和 详细 描述 以 及 练习 使 用 最 大 限度 
辨别 面部 肌肉 运动 编码 系统 的 方法 、 步 又 及 达到 学 会 与 掌握 标准 的 要 求 。 


3.3.3 MAX 5 FACS 的 比较 


All FACS 一 样 ，1983 年 伊 扎 德 提出 的 最 大 限度 辨别 面部 肌肉 运动 编码 系统 (MAX), th 
需要 观察 录像 带 提供 的 面部 慢 动 作 而 进行 面部 运动 分 析 。 但 和 FACS 相 比 ，MAX 不 够 全 面 ， 
因为 它 只 包含 了 那些 与 情绪 相关 的 面部 活动 ， 但 并 不 从 解剖 学 上 对 不 同 的 面部 表示 加 以 区 
分 ， 比 如 内 丑角 上 抬 或 外 丑角 上 抬 ， 而 是 把 它们 看 成 是 一 种 自治 的 运动 。1989 年 Malatesta 
等 人 又 添加 了 一 些 内 容 使 MAX 更 加 全 面 。 与 FACS 不 同 的 是 ，MAX 明确 地 提出 了 面部 运动 
的 一 些 特殊 混合 ， 生 成 了 情绪 的 表示 ， 而 MAX 编码 的 最 终 目的 就 是 识别 这 些 最 大 化 的 指定 
的 情绪 表达 。 

FACS 和 MAX 都 是 通过 客观 的 、 物 理 的 标准 来 测量 面部 活动 ， 而 伊 扎 德 等 人 同样 于 
1983 年 提出 的 表情 辨别 整体 判断 系统 (AFFEX) 则 是 基于 主观 标准 来 测量 面部 表情 活动 。 
这 个 系统 中 的 表情 编码 都 被 赋予 了 一 个 情绪 标签 (比如 “高 兴 ”) ， 也 就 是 说 每 一 种 面部 表 
情 活 动 与 情绪 之 间 都 是 一 种 精确 的 对 应 关系 。 而 与 FACS 和 MAX 相同 的 是 ， 它 同样 需要 观 
察 录像 带 中 的 面部 运动 的 慢 动作 。 

当面 部 活动 被 由 上 “情绪 标签 (Emotion Labels)” ”时 ， 就 可 以 用 来 进行 情感 表达 。 值 得 
关注 的 是 ， 同 样 的 情绪 表达 可 能 对 应 着 不 尽 相 同 的 面部 活动 。 事 实 上 ， 在 MAX, AFFEX 或 
EMFACS 中 ， 也 确实 存在 同样 的 “情绪 标签 ”对 应 着 不 同 的 面部 表现 的 情况 。 例 如 Oster 等 
(1992) 发 现 同样 的 脸 部 显示 ， 在 MAX FI FACS 的 字典 规则 中 对 应 着 不 同 的 情感 表达 。 

相 比较 而 言 ，FACS 的 有 力 描 述 使 其 除了 在 情绪 科学 (Ekman 和 Rosenberg, 1997 年 ; 
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Parke 和 Waters, 1996 ^E; Rinn, 1984 ^E) 中 ,在 非 语言 行为 、 病 痛 研 究 、 神 经 心理 学 、 计 
算 机 图 形 学 等 领域 比 MAX 有 更 为 广泛 的 应 用 。 

在 我 们 每 天 的 生活 中 ， 无 论 是 客观 定义 (FACS 的 动作 单元 或 MAX 的 动作 编码 ) 的 还 
是 主观 标准 定义 的 情绪 表达 都 是 不 常见 的 。 更 多 的 情况 是 面部 特征 的 细小 变化 产生 的 情感 交 
流 ， 比 如 皱眉 表示 一 种 负面 的 态度 。 所 以 说 ,一 个 只 能 描述 情绪 表达 的 系统 是 有 局 限 性 的 。 
RA FACS 和 很 少 程度 的 MAX， 可 以 产生 面部 运动 的 详细 描述 ， 而 这 些 描述 对 于 揭示 情绪 
表达 的 元 素 是 必 不 可 少 的 。 (Carroll 和 Russell, 1997 4E; Gosselin, Kirouac 和 Dore, 1995 
4E), FACS 的 动作 单元 描述 了 可 以 观察 并 区 分 出 的 、 最 精细 的 面部 运动 ， 并 且 FACS 动作 单 
元 的 混合 可 以 描述 情绪 (Ekman 和 Friesen, 1978 年 ; Ekman, 1993 年 ) 和 区 分 正 、 负 情绪 。 


3.4 ”其 他 面部 表情 测量 系统 


















































3.4.1 表情 识别 整体 判断 系统 


Izard 根据 眼睛 、 鼻 子 等 重要 线索 编制 了 “表情 辨别 整体 判断 系统 (AFFEX)”， 产 生 兴 
趣 、 高 兴 、 惊 奇 、 伤 心 、 生 气 、 大 有 恶 、 轻 茂 、 害 怕 和 羞愧 等 九 种 面部 表情 让 儿童 识别 。 这 个 
系统 包括 表情 持续 的 时 间 和 反应 时 间 ， 它 为 辨认 表情 提供 了 一 个 有 效 的 、 全 面 的 情况 。 


3.4.2 自我 评估 情绪 编码 系统 


心理 学 的 初步 研究 结果 表明 : 儿童 在 大 约 30 SAY, H3 58 at a) B Sede 
情 ， 而 在 大 约 36 个 月 时 出 现 第 一 次 失败 后 的 害羞 表情 。 在 3 ~5 岁 的 年 龄 的 儿童 ， 成 功 或 失 
败 的 情绪 反馈 日 益 增 长 ， 与 此 同时 ,孩子 越 大 ， 对 于 成 功 或 失败 的 正面 或 负面 的 反应 越 不 
同 。 这 项 工作 启发 我 们 ， 在 今后 的 几 年 里 进行 更 深入 的 情绪 发 展 研究 ， 特 别 是 自我 评估 情绪 
的 发 展 研究 。1986 年 Geppert 提出 了 一 个 用 来 对 儿童 进行 情绪 表达 分 析 的 观测 系统 ， 通 过 它 
的 不 断 研究 1997 年 一 个 叫 作 自我 评估 情绪 编码 系统 (Self-evaluative Emotions’ Coding Sys- 
tem, SEECS) 应 运 而 生 。 


3.4.3 面部 表情 分 析 工 具 

由 Thomas Wehrle 开发 的 面部 表情 分 析 工 具 (Facial Expression Analysis Tool, FEAT) , 是 
一 个 采用 模糊 规则 相连 接 的 专家 系统 ， 通 过 FACS 的 专门 知识 ， 自 动 测量 面部 表情 。FACS 
的 专门 知识 通过 一 个 编译 器 转换 成 一 个 网 络 结构 ， 因 此 这 个 网 络 可 以 完成 分 类 任务 ， 并 将 
FACS 作为 编码 的 语言 。 此 外 ， 这 个 工具 还 可 以 通过 学 习 算 法 改善 分 类 的 表现 。 
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45435 图 像 处 理 技术 


本 书 按照 人 脸 或 表情 识别 处 理 流程 来 介绍 人 脸 工 程 学 研究 中 用 到 的 算法 和 技术 ， 包括 图 
像 处 理 、 人 脸 检测 跟踪 、 特 征 提 取 、 模 式 识 别 和 人 脸 合 成 等 方面 的 算法 和 技术 。 本 童 介绍 流 
程 中 的 第 一 步 一 一 图 像 处 理 用 到 的 算法 和 技术 。 


4.1 图 像 处 理 的 基本 概念 

















4.1.1 数字 图 像 的 概念 


所 谓 数字 图 像 可 以 理解 为 对 二 维 函 数 拟 x,7y) 进行 采样 和 量化 〈 即 离散 处 理 ) 后 得 到 的 
图 像 ， 因 此 通常 用 二 维 矩 阵 来 表示 一 幅 数 字 图 像 。 数 字 图 像 可 以 由 以 下 三 种 途径 得 到 : 

1) 将 传统 的 可 见 光 图 像 经 过 数字 化 处 理 转换 为 数字 图 像 ， 例 如 将 一 幅 照 片 通过 扫描 仪 
输入 到 计算 机 中 ， 扫 描 的 过 程 实质 上 就 是 一 个 数字 化 的 过 程 。 

2) 应 用 各 种 光电 转换 设备 直接 得 到 数字 图 像 ， 例 如 卫星 上 搭载 的 推 解 式 扫 描 仪 和 光 机 
扫描 仪 可 以 直接 获取 地 表 其 至 地 下 物体 的 图 像 ， 并 实时 存 入 存储 器 中 。 此 外 ， 侧 视 雷 达 也 可 
以 直接 获取 数字 图 像 。 

3) 直接 由 二 维 离散 数学 函数 生成 数字 图 像 。 


4.1.2 数字 图 像 处 理 的 概念 


通常 所 说 的 数字 图 像 处 理 (Digital Image Processing) 是 用 计算 机 进行 处 理 的 ， 因 此 也 称 
为 计算 机 图 像 处 理 ( Computer Image Processing) 。 数 字 图 像 处 理 是 指 对 一 个 物体 的 数字 表 
示 ， 即 对 一 个 二 维和 矩阵 世界 一 系列 的 操作 ， 以 得 到 所 期 望 的 结果 。 数 字 图 像 处 理 的 实质 是 对 
二 维和 矩阵 的 处 理 ， 是 将 一 幅 图 像 变 为 另 一 幅 经 过 修改 的 图 像 ， 是 将 一 个 二 维和 矩阵 变 为 另 一 个 
二 维和 矩阵 的 过 程 。 总 体 来 说 ， 数 字 图 像 处 理 包 括 以 下 几 项 内 容 : 

1. 点 运算 

点 运算 主要 是 针对 图 像 的 像素 进行 加 、 减 、 乘 、 除 等 运算 。 图 像 的 点 运算 可 以 有 效 地 改 
变 图 像 的 直方 图 分 布 ， 这 对 提高 图 像 的 分 辨 率 以 及 图 像 均衡 都 是 非常 有 益 的 。 

2. 几何 处 理 

几何 处 理 主要 包括 图 像 的 坐标 转换 ， 图 像 的 移动 、 缩 小 、 放 大 、 旋 转 ， 多 个 图 像 的 配 准 
以 及 图 像 扭曲 校正 等 。 几 何 处 理 是 最 常见 的 图 像 处 理 手 段 ， 几 乎 任何 图 像 处理 软 件 都 提供 了 
最 基本 的 图 像 缩放 功能 。 图 像 的 扭曲 校正 功能 可 以 将 变形 的 图 像 进行 几何 校正 ， 从 而 得 出 准 
确 的 图 像 。 

3. 图 像 增 强 

图 像 增 强 的 作用 主要 是 突出 图 像 中 重要 的 信息 ， 同 时 减弱 或 者 去 除 不 需要 的 信息 。 常 用 
方法 有 直方 图 增强 和 伪 彩 色 增 强 等 。 
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4. 图 像 复原 

图 像 复 原 的 主要 目的 是 去 除 和 干扰 和 模糊 ， 从 而 恢复 图 像 的 本 来 面目 ， 例 如 去 噪声 复原 处 
理 。 

5. 图 像 形态 学 处 理 

图 像 形态 学 是 数学 形态 学 的 延伸 ， 是 一 门 独立 的 研究 学 科 。 利 用 图 像 形 态 学 处 理 技术 ， 
可 以 实现 图 像 的 腐蚀 、 细 化 和 分 割 等 效果 。 

6. 图 像 编码 

图 像 编码 研究 属于 信息 论 中 信 源 编码 的 范畴 ， 其 主要 宗旨 是 利用 图 像 信号 的 统计 特性 及 
人 类 视觉 特性 对 图 像 进行 高 效 编码 ， 从 而 达到 压缩 图 像 的 目的 。 

7. 图 像 重建 

图 像 的 重建 起 源 于 CT 技术 的 发 展 ， 是 一 门 新 兴 的 数字 图 像 处理 技 术 ， 主 要 是 利用 采集 
的 数据 来 重建 出 图 像 。 图 像 重 建 的 主要 算法 有 代数 法 、 和 迭代 法 、 傅 里 叶 反 投影 法 和 使 用 最 广 
泛 的 卷 积 反 投影 法 等 。 

8. 模式 识别 

模式 识别 也 是 数字 图 像 处 理 的 一 个 新 兴 的 研究 方向 ， 当 今 的 模式 识别 方法 通常 有 三 种 : 
统计 识别 法 、 句 法 结构 模式 识别 法 和 模糊 识别 法 。 目 前 应 用 广泛 的 文字 识别 (OCR) 技术 
就 是 应 用 模式 识别 技术 开发 出 来 的 。 


4.2 图 像 处 理 的 基本 操作 
























































4.2.1 图 像 的 平移 、 旋 转 、 放 缩 、 镜 像 变 换 、 转 置 


1. 图 像 的 平移 

图 像 的 平移 就 是 将 图 像 中 所 有 的 点 都 按照 指定 的 平移 量 水 平 、 垂 直 移 动 。 如 图 4-1 所 
^N. Be (x. Yo) 为 原 图 像 上 的 一 点 ， 图 像 水 平平 移 量 为 ,垂直 平移 量 是 1,， 则 平移 后 点 
(xo, Yo) 坐标 将 变 为 (xi， yi)o 











































































































显然 (xos yo) M Cx, y,) 的 关系 如 下 : »i fy 
n = Xo tf, (4-1) 
Yi = Yo + t, 
X, 1 0 uL] x 
1 0 0 1-41 x 
对 矩阵 求 着， 可 以 得 到 逆 变 换 : 图 4-1 图 像 平 移 示意 图 
Xo 1 0 -zx 
E 1 — t, 
È =|0 1 l m Xx (4-3) 
1 00 11 2 








这 样 ， 平移 后 的 图 像 上 的 每 一 点 都 可 以 在 原 图 像 中 找到 对 应 的 点 。 例 如 ， 对 新 图 中 的 
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(0, 0) BE, PACE IN TRA, MEDORA EUR C. 1s MUR, Ri 
KFO, MA (C-i, 1) 不 在 原 图 中 。 对 于 不 在 原 图 中 的 点 ， 可 以 直接 将 它 的 像素 值 统 
一 设置 为 0 或 者 255 (对 于 灰 度 图 就 是 黑色 或 者 白色 ) 。 同 样 ， 若 有 点 不 在 原 图 中 ， 也 就 是 
说 明 原 图 中 有 点 被 移出 显示 区 域 。 如 果 不 想 丢失 被 移出 的 部 分 图 像 ， 可 以 将 新 生成 的 图 像 宽 
度 扩大 In | .高 度 扩大 || 。 

2. 图 像 的 旋转 

一 般 图 像 的 旋转 以 图 像 的 中 心 为 原点 ， 旋 转 一 定 的 角度 。 旋 转 后 ， 图 像 的 大 小 一 般 会 改 
变 。 和 图 像 平移 一 样 ， 既 可 以 把 转 出 显示 区 域 的 图 像 截 去 ， 也 可 以 扩大 图 像 范围 ， 以 显示 所 
有 的 图 像 ， 如 图 4-2 ~ 图 4-4 所 示 。 
































A F 


























图 4-3 旋转 6 后 的 图 像 图 4-4 旋转 6 后 的 图 像 
(扩大 图 像 ) ( 转 出 部 分 被 截 去 ) 
下 面 来 推导 一 下 旋转 运算 的 变换 公式 。 如 图 4-5 所 示 ， 点 (xo. vo) 经 过 旋转 0° 后 坐标 
变 成 E | ) o 











4-2 ”旋转 前 的 图 像 









































在 旋转 前 为 
[^ = rcosa (44) 
yo = rsina 
旋转 后 为 
x, = reos(a — 0) = rcosacos0 + rsinasing = Xocosg + yosing 
b. = rsin(a — 0) = rsinacos@ - rcosasinÜ = — %osing + yocosO 
(4-5) 
写成 矩阵 表达 式 为 图 4-5 ”旋转 前 的 图 像 
[ 9 cosO sing 01]| Xo 
1 = - sinÜ cos | H (4-6) 
L1 0 0 1-L1 
其 逆 运 算 如 下 
| Xo cosü - sinü 0J% 
4 - i cosO | yi (4-7) 
L1 0 0 1-L1 
上 述 旋转 是 绕 坐标 轴 原 点 (0, 0) 进行 的 ， 如 果 是 绕 一 个 指定 点 (a, b) 旋转 ， 则 先 
要 将 坐标 系 平移 到 该 点 ， 再 进行 旋转 ， 然 后 平移 回 新 的 坐标 原点 。 


下 面 首先 推导 坐标 系 平移 的 转换 公式 。 如 图 4-6 所 示 ， 将 坐标 系 工 平移 到 坐标 系 开 处 ， 
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其 中 坐标 系 工 的 原点 在 坐标 系 D PERN (a, b). 
两 种 坐标 系 坐标 变换 矩阵 表达 式 为 mw 























Xu 1 0 — q]| XI 
yi | = [ -1 b | ace (x.y) 
1 0 0 14i 
其 逆 变 换 矩 阵 表 达 式 为 
XI 1 0 a] Xr 
l^ - [ -1 | «| (4-9) 
1 0 0 1-51 
假设 图 像 为 旋转 时 中 心 坐 标 为 (a， 





5) ， 旋 转 后 中 心 坐标 为 (c,d) (在 新 ™ 
的 坐标 下 ， 以 旋转 后 新 图 像 左 上 角 为 原 
点 ) ， 则 旋转 变换 矩阵 表达 式 为 


x] pl 0 eqs 1 0 c cosü sind OF Xin 
yi 0 -1 T Yin | = [ -1 | - sind cos0 | Yin 
1 -0 0 | 0 0 1 0 0 1 


-1 1 











器 











46 坐标 系 平移 示意 图 











(4-10) 
rl 0 cq cos6 sind 01T1 0  -aj] Xo 
=|0 -1 | - sind cos0 1 -1 b | 
-0 0 1-- 0 0 1--0 0 1 -L1 
其 逆 变 换 矩 阵 表 达 式 为 
Xo 1 0 acos0 -sind O1 0 -ci 
四 = [ -1 ; [no cos o [o -1 d M (4-11) 
1 0 0 1 0 0 1--0 0 1 -L1 
即 
Xo cosÜ  sinÜ  — ccos0 - dsing + a] *i 
四 = | —sing cos0O csin0 ~ dcos0 + b l^ (4-12) 
1 0 0 1 1 
因此 
a = x,cosÓ + y,sin@ — ccos@ — dsinü + a (4-13) 
yo = 一 Xising + y,cos0 + csin — dcos0 + b 


3. 图 像 的 放 缩 
假设 图 像 x 轴 方 向 的 缩放 比率 是 f.，y 轴 方 向 的 缩放 比率 是 六， 那么 原 图 中 点 (xo. yo) 
对 应 于 新 图 中 的 点 (xi y.) 的 转换 矩阵 为 
1 


Xi js 
1 
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aL TE. wt OTe 
四 | 0 1f of eE 7f. (4-15) 
1 0 o UL 77» 

4. 图 像 的 镜像 变换 


设 图 像 高 度 为 mm ， 宽 度 为 lyan WE 中 (xo, yo) 经 过 水 平 镜像 后 坐标 将 变 为 (Liam 


-x，yo) ， 其 矩阵 表达 式 为 
X -1 0 ly Xo 
MU 0 1 0 M (4-16) 
1 0 0 p 


Xo -1 0 Lian Xl l 

Xo = bwian — X 
Yo -| 0 1 0 | y mf uec aa (4-17) 
1 0 0 14 5” 


EE, (xo, yo) 经 过 垂直 镜像 后 坐标 将 变 为 (xo. luas 7 Yo) ， 其 矩阵 表达 式 为 


Xi 1 0 0 Xo 
y7 [ ux " Yo (4-18) 
1 0 0 1 1 

Xo 1 0 0 

Yo | 一 [ e " 

1 0 0 


1 














Y, 
A m =A (4-19) 
1 Yo = Lian eae Aa 


S. 图 像 的 转 置 
转 置 是 指 将 x*、y 坐标 对 换 ， 图 4-7 的 转 置 图 像 如 图 4-8 所 示 。 





图 4-7” 转 置 之 前 原 图 像 图 4-8 转 置 之 后 的 图 像 
转 置 的 变换 矩阵 很 简单 ， 即 

















0 1 0 
[xo yo 1] = [x y 中 0 | (4-20) 
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4.2.2 图 像 的 平滑 、 锐 化 


在 介绍 图 像 平滑 (ARE) 和 锐 化 之 前 ， 首 先 介 绍 一 下 模板 操作 。 

模板 操作 是 数字 图 像 处 理 中 常用 的 运算 方法 ， 图 像 的 平滑 、 锐 化 以 及 后 面 将 要 介绍 的 细 
化 、 边 缘 检测 都 要 用 到 模板 操作 。 

对 于 最 简单 的 局 部 平 清算 法 ， 即 非 加 权 领 域 平均 ， 它 均等 地 对 竺 领域 中 的 每 个 像素 。 设 
图 像 中 茶 像 素 灰 度 值 为 Kxz,y) ， 它 的 领域 5 为 NxN ， 点 集 的 总 数 为 及 ， 则 平滑 后 这 点 的 
灰 度 值 为 














Ailey) = EA (4-21) 
对 于 这 样 的 操作 ， 可 以 用 模板 操作 来 表示 。 为 了 叙述 方便 ， 设 N=3， 则 可 以 用 如 下 的 
表示 方法 来 表示 此 操作 ; 
i 1 1 1 
中 1 ] (4-22) 
1 1 1| 


DORAN TIE A BEE, PROLES (Template) 。 中 间 的 黑 点 表示 该 元 素 为 中 心 元 
素 ， 即 该 元 素 是 要 进行 处 理 的 元 素 。 如 果 模 板 是 
1. 1 1 
j 1 1 ] (423) 
1 1 1 
则 该 操作 应 该 描述 为 : 将 原 图 中 一 个 像素 的 灰 度 值 和 它 右 下 邻近 的 8 个 像素 的 灰 度 值 相 加 ， 
然后 将 求 得 的 平均 值 ( 除 以 9) 作为 新 图 中 该 像素 的 灰 度 值 。 


Ds 
1 果 模 板 为 [1 | 则 表示 将 自身 灰 度 值 的 2 倍加 下 边 的 元 素 灰 度 值 作 为 新 值 ， 而 
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[ine eee tim nct 2 ito it 




















1. 0 
通常 模板 不 允许 移出 边界 ， 所 以 处 理 后 的 新 图 像 会 比 原 图 小 。 例 如 当 模 板 是 | 0 ae 
5 5 5 5 — 


8 8 8 8 — 
时 ， 经 过 模板 操作 后 的 图 像 为 1 oq a |， 





JS EK BE (EORR Fe T 











1 NE 
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444 

















1 
2 
3 
4 
“一 ”表示 边界 上 无 法 进行 模板 操作 的 点 ， 一 般 的 做 法 是 复制 原 图 的 灰 度 值 ， 不 再 进行 任何 
其 他 的 处 理 。 
模板 操作 实现 了 一 种 邻 域 运 算 (Neighborhood Operation) ， 即 某 个 像素 点 的 结果 不 仅 和 
本 像素 灰 度 有 关 ， 而 且 和 领域 点 的 值 有 关 。 模 板 运算 在 数学 中 的 描述 是 卷 积 (或 互相 关 ) 
运算 ， 在 这 里 就 不 再 介绍 了 ， 有 兴趣 的 读者 可 以 自行 查看 相应 的 数学 书籍 。 
模板 运算 在 图 像 处 理 中 经 常 要 用 到 ， 但 是 当 图 像 很 大 时 ， 运 算 量 是 非常 可 观 的 ， 也 非常 
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1 2 1 
ier. Ae 2 | 运算 为 例 ， 每 个 像素 完成 一 次 模板 操作 要 用 9 次 乘法 、8 次 加 
1.2 4 














法 和 1 次 除法 。 对 于 一 幅 NxN (宽度 x 高 度 ) 的 图 像 ， 就 是 要 进行 9(N - 2) 次 乘法 、8(N 
-2) 次 加 法 和 (CN -2) 次 除法 操作 ， 算 法 复杂 度 为 O(NV ) ， 这 对 于 大 图 像 来 说 ， 是 非常 可 
怕 的 ， 所 以 常用 的 模板 并 不 大 ， 如 3 x3、4 x4。 有 很 多 专用 的 图 像 处 理 系 统 ， 用 硬件 来 完 
成 模板 运算 ， 大 大 提高 了 速度 。 

另外 ， 可 以 设法 将 二 维 模 板 运算 转 换 成 一 维 模板 运算 ， 这 对 速度 的 提高 也 是 有 益 的 。 例 
如 ， 上 面 的 例子 可 以 分 解 成 一 个 水 平 模板 和 一 个 竖 直 模板 ， 即 




















1 2 1 1 1 
xi Ld 1 . _ 了 工 2. . E 
is 24738 Hetu 2 1] SET x[1 2 1] (4-24) 
1 2 1 1 1 








这 样 ， 改 进 后 将 要 进行 的 是 6(N -2)(N - 1) 次 乘法 ,4(N -2) (N - 1) 次 加 法 和 CN - 
2) 次 除法 操作 ， 减 少 了 不 少 次 乘法 和 加 法 运算 。 









































12 4 2 
TODO TOR NOS NE gla 2S: 53 eee 
下 面 来 具体 验证 一 下 该 分 解 算法 的 可 行 性 ， 设 图 像 为 | ， "NI 5 |， 直 接 经 过 模板 16 
3 0 8 0 
53 61 
o 4- 2 | 处 理 后 变 为 16| 07 gg |。 但 是 如 果 采 用 分 解 后 的 模板 来 处 理 ， 结 果 为 
1 2 |] 
i 1:2. 4 2 i =. 9° -12 := Se ES 
1 3° 2) 6 33.71 — 42 Te 33:661 — 
—|2-xl1 2 1} x = —|2- |x = 
ef PN a uns s 一 2019 —| l6 — 7 8 — 
3 0 8 0 — 25 38 — E n 
(4-25) 


可 以 发 现 ， 两 种 计算 方法 得 出 的 结果 是 完全 相同 的 。 

1. 图 像 的 平滑 

图 像 在 生成 和 传输 过 程 中 常 受到 各 种 噪声 的 干扰 和 影响 ， 使 图 像 质量 下 降 。 为 了 抑制 品 
声 以 改善 图 像 质量 ， 必 须 对 图 像 进 行 平滑 处 理 ， 这 可 在 空域 或 频 域 中 进行 。 在 平滑 噪声 时 应 
尽量 不 损害 图 像 中 边沿 和 各 种 细节 。 

对 于 滤 除 图 像 中 的 噪声 ， 人 们 已 经 提出 了 很 多 方法 。 通 常 ， 将 数字 图 像 的 平滑 技术 分 化 
为 两 类 : 一 类 是 全 局 处 理 ， 即 对 噪声 图 像 的 整体 或 大 的 块 进行 校正 ， 以 得 到 平滑 的 图 像 ， 但 
对 大 多 数 图 像 而 言 ， 人 们 不 知道 或 不 可 能 用 简单 的 随机 过 程 精确 地 描述 统计 模型 ， 而 且 这 些 
技术 计算 量 也 是 相当 大 的 ; 另 一 类 平滑 技术 是 对 噪声 图 像 使 用 局 部 算 子 ， 当 对 某 一 像素 进行 
平滑 处 理 时 ， 仅 对 它 的 局 部 小 领域 的 一 些 像 素 加 以 运算 ， 其 优点 是 计算 效率 高 ， 而 且 可 以 对 
多 个 像素 并 行 处 理 ， 因 此 可 实现 实时 或 准 实时 处 理 。 
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平滑 模板 的 思想 是 通过 一 点 和 周围 几 个 点 的 运算 (通常 为 平均 运算 ) 来 去 除 突然 变化 
的 点 ， 从 而 滤 掉 一 定 的 噪声 ， 但 图 像 有 一 定 程 度 的 模糊 。 而 减少 图 像 模 糊 代价 是 图 像 平滑 研 
究 的 主要 问题 之 一 。 这 主要 取决 于 噪声 本 身 的 特性 。 一 般 情 况 下 ， 通 过 选择 不 同 的 模板 来 消 
除 不 同 的 噪声 。 常 用 的 模板 有 


0 1 0 I zr i ow 4 1 1 1 1 2 1 
二 1 1. 1 Ap 1 Lig 1. 1 D 1 1j, 4. 2 
4 : 8 : 9 , 10 , 16 ; 

0 1 0 1 1 1 1 1 1 1 1 1 2 1 


1 
其 中 ， 最 后 一 个 模板 又 常 称 为 高 斯 模板 ， 它 是 通过 采样 二 维 高 斯 函数 得 到 的 。 

2. 图 像 的 锐 化 

图 像 锐 化 处 理 的 目的 是 使 模糊 的 图 像 变 得 更 加 清晰 起 来 。 通 常 针对 引起 图 像 模糊 的 原因 
而 进行 相应 的 锐 化 操作 ， 属 于 图 像 复原 的 内 容 ， 在 这 里 只 是 介绍 一 般 的 去 模糊 算法 。 

图 像 的 模糊 实质 上 就 是 图 像 受 到 平均 或 积分 运算 造成 的 ， 因 此 可 以 对 图 像 进 行 逆 运 算 如 
微分 运算 来 使 图 像 清晰 化 。 从 频谱 角度 来 分 析 ， 图 像 模 糊 的 实质 是 其 高 频 分 量 被 衰减 ， 因 而 
可 以 通过 高 通 滤波 操作 来 清晰 图 像 。 但 要 注意 ， 能 够 进行 锐 化 处 理 的 图 像 必须 有 较 高 的 信 品 
比 ， 和 否则 锐 化 后 图 像 信 噪 比 反 而 更 低 ， 从 而 使 噪声 的 增加 比 信号 的 增加 还 要 多 ， 因 此 一 般 是 
先 去 除 或 减轻 噪声 后 再 进行 锐 化 处 理 。 

图 像 锐 化 一 般 有 两 种 方法 : 一 种 是 微分 法 ; 另外 一 种 是 高 通 滤 波 法 。 后 者 的 工作 原理 和 
低 通 滤波 相似 ， 这 里 就 不 再 详细 介绍 了 。 下 面 主要 介绍 一 下 两 种 常用 的 微分 锐 化 方法 : 梯度 
锐 化 和 拉 善 拉 斯 锐 化 。 对 于 高 通 滤 波 法 ， 只 给 出 几 种 常用 的 高 通 滤波 器 。 

(1) 梯度 锐 化 ”图像 的 模糊 相当 于 图 像 被 平均 或 被 积分 。 为 实现 图 像 的 锐 化 ， 必 须 用 它 
的 反 和 运算“ 微分， 来 加 强 高 频 分 量 的 作用 ， 从 而 使 图 像 轮廓 清晰 。 由 于 模糊 图 像 的 特征 〈 如 
边沿 的 走向 等 ) 各 不 相同 ， 要 进行 锐 化 ， 应 该 采用 各 向 同性 、 具 有 旋转 不 变 的 线性 微分 算 子 。 

图 像 处理 中 最 党 用 的 微分 方法 是 求 梯 度 。 图 像 凡 zx,y) 所 在 的 梯度 是 一 个 向 量 ， 定 义 为 
of 
0x 
of 
ay 


























































































































Gf(x,y) = (4-26 ) 








梯度 有 两 个 重要 性 质 : 
1) 梯度 的 方向 在 函数 所 x,y) 最 大 变化 率 方向 上 ; 
2) 梯度 的 幅度 用 GMLf(x,y) ] 表示 ， 其 值 为 


emt] = (3 + (84) (4.27) 


ð x ð y 
A (x, y) 梯度 的 幅度 为 梯度 的 模 ， 即 
GM(x,y) = MfG.) - f(x € Duy + fey) -Aay 7°}? (4-28) 
为 了 运算 简便 ， 可 以 简化 为 
GM(x,y) = |f(x,y) -fx +1),y| + Iflx,y) -fx,y +1) | (4-29) 
或 利用 Roberts 梯度 算 子 
GM(x,y) = | [f(x,y) -fx +1,y € D + fle +1,y) - f(x,y +1)] 1^ (4-30) 
Roberts 算 子 也 可 以 简化 为 
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GM(x,y) = |f(x,y) - f(x +1,y +1) | e Iflx+1,y) -f(x,y *1)] (4-31) 
梯度 算 子 一 旦 算出 后 ， 就 可 以 根据 不 同 的 需要 生成 不 同 的 梯度 增强 图 像 。 

此 方法 的 缺点 是 增强 图 像 仅 仅 显 示 灰 度 变换 比较 陡峭 的 边沿 轮廓 ， 而 灰 度 变化 比较 平缓 
或 者 比较 均匀 的 地 方 则 呈现 黑色 。 

人 们 又 提出 了 一 些 改进 的 方法 ， 例 如: 

GM(x,y) GM(«,y) >T 
ttt 
AF, TH AEÍABQBQ[R. i8 Ghee 7， 即 可 使 明显 的 边沿 轮廓 得 到 突出 ， 并 且 不 会 破 
坏 原来 灰 度 变换 比较 平缓 的 背景 。 

还 有 一 些 其 他 方法 ， 例 如 将 梯度 幅度 大 于 阔 值 的 设置 为 某 个 指定 的 灰 度 或 者 梯度 幅度 ， 
梯度 幅度 小 于 阔 值 的 像素 则 设置 为 某 个 指定 灰 度 或 者 梯度 幅度 等 ， 这 里 就 不 一 一 介绍 了 ， 读 
者 可 以 参考 数字 图 像 处 理 文献 。 

(2) 拉 普 拉 斯 锐 化 ” 拉 普 拉 斯 锐 化 运算 也 是 偏 导数 运算 的 线性 组 合 ， 而 且 是 一 种 各 回 
同性 (旋转 不 变性 ) 的 线性 运算 。 设 V *f 为 拉 普 拉 斯 算 子 ， 则 


Vf = af, a'f (4-33) 
tay 
对 于 离散 数字 图 像 f(i,j) , 其 rere 























(4-32) 








































































































Pm A f.) = f) - fü - 1) 
i (4-34) 
a SAC) ea PD 
其 二 阶 偏 导数 为 
OLED = a fi elu) ASS) = fU 14) ef - 14) Ai) 
Live (4-35) 
OAD za fig el) -AJU) = Abi D HAG -1) Ai) 
所 以 ， 拉 普 拉 斯 算 子 wy 为 
vies af, of - fini) 本 
- 4f(i,j) (4-36) 
对 于 扩散 现象 引起 的 图 像 模糊 ， 可 以 用 下 式 来 进行 锐 化 : 
EENEI VG. (4.37) 





WH, kr 是 与 扩散 效应 有 关 的 系数 。 该 系数 取 值 要 合理 ， 如 果 br 过 大 ， 图 像 轮廓 边缘 会 产 
生 过 冲 ; 反之 如 果 杂 过 小 ， 锐 化 效果 就 不 明显 。 
WRS kr =1， 则 变换 公式 为 
gio) S Sig) = fi-17) fe ey) -fij+1) -fi,j-1) (4-38) 
用 模板 表示 如 下 : 
0 -1 0 
E 5. -1| (4-39) 
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这 样 拉 普 拉 斯 锐 化 运算 完全 可 以 转换 成 模板 运算 。 其 实 常用 的 拉 普 拉 斯 锐 化 模板 还 有 男 


外 一 种 形式 : 
| 
| -1 9. - ] (4-40) 


-1 -1 -1 

拉 普 拉 斯 算 子 有 两 个 缺点 : 一 是 边沿 的 方向 被 丢失 ; 男 一 个 是 拉 普 拉 斯 算 子 为 二 阶 差 
分 ， 双 倍加 强 了 图 中 的 噪声 影响 。 优 点 是 各 向 同性 ， 即 旋转 不 变 。 

(3) 高 通 滤 波 器 ”由 于 图 像 中 的 边缘 及 急剧 变化 部 分 与 图 像 高 频 分 量 有 关 ， 因 此 利用 
高 通 滤 波 器 衰减 图 像 信号 中 的 低频 部 分 ， 能 相对 增强 图 像 高 频 部 分 ， 从 而 实现 图 像 锐 化 的 目 
的 。 和 常用 的 高 通 滤波 器 有 理想 高 通 滤 波 器 、 巴 特 添 夫 高 通 滤 波 器 、 指 数 高 通 滤波 器 和 梯形 高 
通 滤波 禹 。 下 面 将 分 别 给 出 各 种 高 通 滤 波 器 的 转移 函数 。 

1) 理想 高 通 滤 波 器 ”理想 二 维 高 通 滤波 器 的 传递 函数 如 下 : 










































































































































































Hippol ce (441) 
1 D(u,v) > Do 
RP, Dy 是 从 频率 平面 原点 算 起 的 截止 频率 〈 或 截止 “Ai 
HERS) 。D(w,z) 为 | — 
D(u,v) = Jw *v (442) 

理想 高 通 滤波 器 传递 函数 的 径 向 剖面 如 图 4-9 所 0 Do DUE) 
No 图 4-9 ”理想 高 通 滤波 器 

理想 高 通 滤波 器 和 理想 低 通 滤波 器 相反 ， 它 正好 将 fta ROUES T Pn] T 


























以 D, 为 半径 的 圆 内 的 频率 成 分 〈 低 频 部 分 ) 衰减 掉 ， 
而 对 圆 外 的 频率 成 分 (高 频 部 分 ) 则 可 以 无 损 通过 。 
2) 巴特 沃 夫 高 通 滤波 器 BREIEN D, 的 n 阶 巴特 沃 夫 高 通 滤波 絮 的 传递 函数 如 下 





























所 示 : HL) 
H(u,v) = —— (443) 
1+ | 9 | 0.5 
D(u,v) 
RIF, D(w,v) 仍然 为 D(w,z) = VA tv. E E E E 
巴特 沃 夫 高 通 滤 波 器 传递 函数 径 向 剖面 如 图 4-10 所 


图 4-10 巴特 沃 夫 高 通 滤波 
器 传递 函数 径 向 剖面 

















示 。 

和 低 通 滤波 器 类 似 ， 定 义 Hu) 下 降 到 其 最 大 值 
一 半 处 的 Du. v) 为 截止 频率 点 Do 一般 情况 下 ,高通 滤波 絮 的 截止 频率 选择 使 有 (h,v) PER 
到 其 最 大 值 的 17 v2 处 ， 满 足 该 条 件 的 传递 函数 可 以 修改 为 


























(u,v) = ! D an 一 D 2n (4-44) 
1 suse a IPSE 
3) 指数 高 通 滤波 器 ”截止 频率 为 Do 的 指数 高 通 滤 波 器 的 传递 函数 如 下 所 示 : 
H(u,v) = e Ln] (4-45) 
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UB. Dy 为 截止 频率 ; D(u.v) = vu +r o Stin RWE Ay) 的 增长 率 。 指 数 高 通 滤 
波 器 的 传递 函数 径 向 训 面 如 图 4-11 所 示 。 HD) 
X D(u,v) = Dy H}, H (u,v) = 1/e, 如 果 仍然 把 截止 频 1.0 
率 定 在 瑟 (w,z) 最 大 值 的 1W2 处 ， 则 传递 函数 可 以 修改 为 0.5 
如 下 形式 : 
H(u,v) = en 人 5 = ee (4-46) 
4) 梯形 高 通 滤 波 器 ”梯形 高 通 滤波 器 的 传递 函数 可 图 4-11 ”指数 高 通 滤 波 器 





























0 1 2 3 Dv)/Do 













































































以 用 下 式 表示 : 传递 函数 径 向 剖 卫 
0 D(p,v) < D, Ho) 
D( i ) & D, 1.0 
H(w,v) = me » D, = D(u,v) < D, | 
1 D(p,v) > D, 
(447) 0 D PD Do) 
同样 , RP D(u,v) = Vu +r o D, Fl D, 为 指定 值 ， 并 图 4-12 ”梯度 高 通 滤波 器 
HD,» D,, XEXGROEUE OS Do, D, 是 任意 选 的 ， 只 要 满 传递 函数 径 向 剖面 
Æ D, » D, 即 可 。 — IESG abes LTT AE 


4-12 所 示 。 


4.2.3 图 像 的 腐蚀 、 膨 胀 和 细 化 


1. 基本 符号 和 关系 的 定义 

先 来 定义 一 些 基 本 符号 和 关系 。 

(1) OR WA-MARX, AA a 在 XX 的 区 域 以 内 ， 则 称 a 为 工 的 元 素 ， 记 作 ac eXX， 
如 图 4-13 所 示 。 

(2) B 包 含 于 X 设 有 两 幅 图 像 了 、X。 对 于 B 中 所 有 的 元 素 w， 都 有 a; eX, WF B 
包含 于 (Included in) X， 记 作 BCX， 如 图 4-14 所 示 。 

(3) 8B8 击 中 X 设 有 两 幅 图 像 了 、X。 硅 存在 这 样 一 个 点 ， 它 既是 B R, XÆ X HY 
TER, WR BR (Hit) X, iE 1X ， 如 图 4-15 所 示 。 

(4) B 不 击 中 X 设 有 两 幅 图 像 B、X。 若 不 存在 任何 一 个 点 ， 它 既是 中 MCR, X 
XX 的 元 素 ， 即 B 和 XX 的 交集 是 空 ， 则 称 B 不 击 中 (Miss) X, WEBNX=9, HFP, NÆR 



































合 运 算 中 交集 的 符号 ; 8 表示 空 集 ， 如 图 4-16 所 示 。 
到 4-13 ”元 者 Z| 4-14 包含 Z] 4-15 击 中 图 4-16 不 击 中 









































(5) 补 集 ” 设 有 一 幅 图 像 X， 所 有 半 区 域 以 外 的 点 构成 的 集合 称 为 X AR, WE X, 
如 图 4-17 Bras, A, MMAR BOX =0, WB EX KIEN, BY BCX, 
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(6) 结构 元 素 设 有 两 幅 图 像 B、X。 若 并 是 被 处 理 的 对 象 ， 而 如 是 用 来 处 理工 的 ， 则 
FK B 为 结构 元 素 (Structure Element) ， 又 被 形象 地 称 做 刷子 。 
结构 元 素 通 常 都 是 一 些 比较 小 的 图 像 。 

(7) 对 称 集 ” 设 有 一 幅 图 像 了 ,将 B 中 所 有 元 素 的 坐标 
取 反 ， 即 令 (x, y) 变 成 ( -x，-y)， 所 有 这 些 点 构成 的 新 
的 集合 称 为 B 的 对 称 集 ， 记 作 B, WE 4-18 所 示 。 

(8) 平移 设 有 一 幅 图 像 了， 有 一 个 点 a(%o,yo) , EB 
平移 a 后 的 结果 是 ,把 B 中 所 有 元 素 的 横 坐 标 加 x。， 纵 坐标 图 4-17 补 集 的 示意 图 
加 y。， 即 令 (x, y) 变 成 (* +xo，yY+yo)， 所 有 这 些 点 构成 的 新 的 集合 称 为 有 的 平移 ， 记 
TE B,, WEI 4-19 所 示 。 
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图 4-19 平移 的 示意 图 


s 
C 











图 4-18 ”对 称 集 的 示意 
介绍 了 这 么 多 基本 符号 和 关系 ， 现 在 应 用 这 些 符号 和 关系 ， 看 一 下 形态 学 的 基本 运算 。 
2. 形态 学 的 基本 运算 
(1) 腐蚀 ”把 结构 元 素 刀 平移 a 后 得 到 B。, 若 B。 包含 于 XX， 记 下 这 个 a 点 ， 所 有 满足 
上 述 条 件 的 a 点 组 成 的 集合 称 做 半 被 B 腐蚀 (Erosion) 的 结果 ， 用 公式 表示 为 E(X) = lal 
B,CX| =XGB， 如 图 4-20 fim. 


y 











图 4-20 ”腐蚀 的 示意 图 











图 4-20 rp, XX 是 被 处 理 的 对 象 ，B 是 结构 元 素 。 不 难 知道 ， 对 于 任意 一 个 在 阴影 部 分 
的 点 a，B, 包含 于 XX， 所 以 X 被 B 腐蚀 的 结果 就 是 那个 阴影 部 分 。 阴 影 部 分 在 的 范围 之 
内 ， 且 比 X 小 ， 就 像 X 被 剥 掉 了 一 层 似 的 ， 这 就 是 为 什么 叫 腐 创 的 原因 。 

值得 注意 的 是 ， 上 面 的 B 是 对 称 的 ， 即 B 的 对 称 集 B" =B， 所 以 X 被 8B 腐蚀 的 结果 和 XX 
BB 腐蚀 的 结果 是 一 样 的 。 如 果 B 不 是 对 称 的 ， 则 如 图 4-21 所 示 ， 就 会 发 现 X 被 B 腐蚀 的 
结果 和 XX 被 BY 腐蚀 的 结果 不 同 。 

图 4-20 和 图 4-21 都 是 腐蚀 的 示意 图 ， 现 在 来 看 看 实际 上 是 怎样 进行 腐蚀 运算 的 。 

如 图 4-22 所 示 ， 左 边 是 被 处 理 的 图 像 X (二 值 图 像 ， 针 对 的 是 黑 点 ) ， 中 间 是 结构 元 素 
B， 那 个 标 有 origin 的 点 是 中 心 点 ， 即 当前 处 理 元 素 的 位 置 ， 在 介绍 模板 操作 时 也 有 过 类 似 
的 概念 。 腐 蚀 的 方法 是 ， 拿 B 的 中 心 点 和 XX 上 的 点 一 个 一 个 地 对 比 ， 如 果 B 上 的 所 有 点 都 
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. XOK * 


图 4-21 结构 元 素 非 对 称 时 ， 腐 蚀 的 结果 不 同 
在 XX 的 范围 内 ， 则 该 点 保留 ， 否 则 将 该 点 去 掉 ; 右边 是 腐蚀 后 的 结果 。 可 以 看 出 ， 它 仍 在 








He ^ eps 、 
原来 X 的 范围 内 ， 且 比 X 包 含 的 点 要 少 ， 就 像 X 被 腐蚀 控 了 一 层 。 
00000000000 o00000000 00 
000000888800 o00000000 00 
0000000808860 o0oooooooeeeoeo 
9000000888080 CO000000eee0 
ooo0o000 00000 ooo0o00000000 
o000@@@e8e@000 o0oooooeeeooo 
oeeeoec)ec)cc)c000 OO oo 9000@@e0e0@000 
oeeeeoooooo ooeo o0oeeeeoooooo 
oeeeeoooooo 9999 o0oeeeeoooooo 
eo0000 000000 ooo o0000000000 
X B origin XOB 


图 4-22 ”腐蚀 运算 
图 4-23 HERE, E 4-24 为 腐蚀 后 的 结 很 明显 地 看 出 腐蚀 的 效果 。 
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* Li . * 1 * 要 
Hijl m phoenix. Hi,l m phoenix. 
Glad to meet u. Glad to meet u. 
E423 原 图 图 4-24 腐蚀 后 的 效果 

(2) 膨胀 WRK (Dilation) 可 以 看 作 是 腐蚀 的 对 偶 运算 ， 其 定义 是 : 把 结构 元 素 B F 
B a 后 得 到 B,， 阁 B, 击 中 X， 记 下 这 个 4a 点。 所 有 满足 上 述 条 件 的 a 点 组 成 的 集合 称 作 了 站 
WB 膨胀 的 结果 。 用 公式 表示 为 : D(X) = la1B。1XI =X@B。 图 4-25 中 X 是 被 处 理 的 


对 象 ，B 是 结构 元 素 ， 不 难 知 道 ， 对 于 任意 一 个 在 阴影 部 分 的 点 a，B。 PX, HA X gB 
膨胀 的 结果 就 是 那个 阴影 部 分 。 阴 影 部 分 包括 苇 的 所 有 范围 ， 就 像 工 膨胀 了 一 圈 似 的 ， 这 
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图 4-25 ”膨胀 的 示意 图 
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就 是 为 什么 叫 膨胀 的 原因 。 
同样 dA 




















RB 不 是 对 称 的 , X 被 B 脱 胀 的 结果 和 XX 被 B' 膨胀 的 结果 是 不 同 的 。 


现在 来 看 看 实际 上 是 怎样 进行 膨胀 运算 的 。 如 图 4-26 所 示 ， 左 边 是 被 处 理 的 图 像 











(二 值 图 像 ， 针 对 的 是 





Ru), ， 中 间 
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图 4-27 为 图 4-23 膨胀 后 的 结 





(3) db ”所谓 细 化 ， 就 是 从 原来 的 图 
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4-26 W 
， 能 够 很 明 


长 运算 
THRA H 


Al 


Hi, 




































































构 元 素 B。 脱 胀 的 方法 是 ， 拿 B 的 中 心 点 和 X 上 的 
点 及 XX 周围 的 点 一 个 一 个 地 对 比 ， 如 果 B 上 有 一 个 
边 是 膨胀 后 的 结果 。 可 以 看 出 ， 它 包括 XX 的 所 有 范围 ， 





Tr X 的 范围 内 ， 则 该 点 就 为 黑 ; A 
就 像 工 膨 胀 了 一 圈 似 的 。 
000000000 
o0ooooeeeeoee 
00000000 è 
o0 000000 @ 
ooeeeee@ee@e o 
ooeeeee@eocoo 
eeeeeeeg@eocoo 
eeeeeg@ocooo 
eeeeooooo 
eeeoooooo 
XQB 
膨胀 的 效果 。 


I'm phoenix . 



































中 去 掉 一 些 点 ， 但 仍 要 保持 原来 的 形状 。 实 
际 上 ， 是 保持 原 图 的 骨架 。 所 谓 骨 架 ， 可 以 
理解 为 图 像 的 中 轴 ， 例 如 一 个 长 方形 的 骨架 Glad to meet u. 
是 它 的 长 方向 上 的 中 轴线 ; 正方 形 的 骨架 是 E 4-27 ”膨胀 后 的 效果 
它 的 中 心 点 ; 圆 的 骨架 是 它 的 圆心 ， 直 线 的 骨架 是 它 自身 ， 孤 立 点 的 骨架 也 是 自身 。 那 么 怎 
样 判断 一 个 点 是 否 能 去 掉 呢 ?显然 ， 要 根据 它 的 八 个 相 邻 点 的 情况 来 判断 ， 现 给 出 图 4-28 
所 示 几 个 例子 。 

a) b) c) d) e) f) 

图 4-28 根据 某 点 的 八 个 相 邻 点 的 情况 来 判断 该 点 是 否 能 删除 

图 4-28 H, Ka 不 能 删 ， 因 为 它 是 个 内 部 点 ， 我 们 要 求 的 是 骨架 ， 如 果 连 内 部 点 也 删 

了 ， 上 骨架 也 会 被 掏 空 的 ， 图 上 不 能 删 ， 和 图 a 是 同样 的 道理 ;图 c 可 以 删 ， 这 样 的 点 不 是 骨 
ans 图 d 不 能 删 ， 因 为 删 掉 后 ， 原 来 相连 的 部 分 断 开 了 ; Ble 可 以 删 ， 这 样 的 点 不 是 骨架 ; 
图 f 不 能 删 ， 因 为 它 是 直线 的 端点 ， 如 果 这 样 的 点 删 了 ， 那 么 最 后 整个 直线 也 被 删 了 ， 就 剩 
不 下 什么 了 。 


小 结 一 下 ， 有 如 下 的 判 据 ， 图 a 内 部 点 不 能 删除 ; Alb 孤立 点 不 能 删除 ; E e 直线 端点 














不 能 删除 ; Ald 如 果 待 判断 点 是 边界 点 ， 去 掉 它 后 ， 如 与 








给 出 一 个 具体 的 细 化 算法 : 一 
fy P, $ P,, 
足 ， 则 删除 P, (P, 20). 

e 2<NZ(P1) <6; 


eTa Pgs 其 中 P, 位 于 中 心 。 ang 











公 量 





划 图 像 中 的 一 个 3 x3 
EP, =1 (H 

















连通 分 量 不 增加 ， 则 它 可 以 删除 。 
区 域 (ILEI 4-29) ， 对 各 点 标记 名 
p), ， 下 面 四 个 条 件 如 果 同 时 满 
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e Z0(P1) =1; 

e P2x PA x P8 20 或 者 Z0(P1) #1; 

e P2xP4 x P6 20 或 者 Z0(P4) #1, 

对 图 像 中 的 每 一 个 点 重复 这 一 步 又， 直到 所 有 的 点 都 不 可 删除 为 止 。 图 4-29 给 出 了 这 
一 算法 的 应 用 示例 。 








Al 4-29 细 化 示例 
a) 标记 点 P, 和 邻 点 b) 细 化 过 程 





4.2.4 图 像 的 恢复 与 重建 


图 像 的 质量 变 坏 叫 做 退化 。 退 化 的 形式 有 图 像 模 糊 、 图 像 干 扰 等 。 图 像 恢复 也 称 图 像 复 
原 ， 是 图 像 处 理 中 的 一 大 类 技术 。 

无 论 是 由 光学 、 光 电 或 电子 方法 获得 的 图 像 ， 都 会 有 不 同 程度 的 退化 。 由 于 获得 图 像 的 
方法 不 同 ， 其 退化 形式 是 多 种 多 样 的 ， 如 传感器 噪声 、 摄 像 机 未 聚焦 、 物 体 与 摄像 设备 之 间 
的 相对 移动 、 随 机 大 气 庙 流 、 光 学 系统 的 相差 、 成 像 光 源 或 射线 的 散射 等 ， 这 些 因素 都 会 使 
成 像 的 分 辨 率 和 对 比 度 退化 。 如 果 对 退化 的 类 型 、 机 制 和 过 程 都 十 分 清楚 ， 那 么 就 可 以 利用 
其 反 过 程 把 已 退化 的 图 像 复原 。 图 像 复原 主要 取决 于 对 图 像 退化 过 程 的 先 验 知识 掌握 的 精确 
程度 。 

对 图 像 复原 结果 的 评价 也 应 确定 一 些 准 则 ， 这 些 准 则 包括 最 小 均 方 误差 准则 、 加 权 均 方 
准则 、 最 大 炉 准 则 等 ， 这 些 准 则 是 规定 复原 后 的 图 像 与 原 图 像 相 比较 的 质量 标准 。 也 就 是 
说 ， 当 确定 复原 后 图 像 的 质量 标准 后 ， 对 所 期 望 的 结果 作出 符合 某 种 标准 的 最 佳 估计 。 典 型 
的 图 像 复原 是 根据 图 像 退 化 的 先 验 知识 建立 一 个 退化 模型 ， 以 此 模型 为 基础 采用 各 种 反 退 化 
处 理 方法 ( 如 滤波 等 ) 使 复原 后 图 像 符合 某 些 准则 ， 图 像 质 量 得 到 改善 。 

图 像 复原 和 图 像 增强 的 目的 都 是 为 了 改善 图 像 的 质量 ， 其 相同 之 处 是 ， 它 们 都 要 得 到 在 
某 种 意义 上 改进 的 图 像 ， 或 者 说 都 希望 改进 输入 图 像 的 视觉 质量 。 图 像 恢 复 与 图 像 增强 不 同 
之 处 是 ， 图 像 增强 不 考虑 图 像 是 如 何 退 化 的 ， 只 通过 试探 用 各 种 技术 来 增强 图 像 的 视觉 效 
果 ， 以 适应 人 的 视觉 系统 ， 取 得 看 起 来 较 好 的 视觉 结果 。 图 像 复 原 就 完全 不 同 ， 须 知道 图 像 
退化 的 机 制 和 过 程 等 先 验 知识 ， 据 此 找 出 一 种 相应 的 反 退 化 处 理 方法 ， 从 而 得 到 原来 的 图 
像 。 图 像 恢复 技术 是 要 将 图 像 退化 的 过 程 模 型 化 ， 并 据 此 采取 相反 的 过 程 以 得 到 原始 的 图 
像 。 由 此 可 见 ， 图 像 恢复 要 根据 一 定 的 图 像 退 化 模型 来 进行 。 例 如 未 聚焦 的 照片 ， 无 论 用 什 
么 增强 方法 也 不 可 能 得 到 清晰 的 原始 图 像 ， 但 是 若 已 知 其 退化 的 先 验 知识 是 镜头 不 聚焦 ， 则 
其 反 退 化 处 理 过 程 可 用 一 阶 贝 塞 尔 函 数 的 反 滤波 来 复原 图 像 。 

对 图 像 恢复 技术 可 有 多 种 分 类 方法 。 在 给 定 模 型 的 条 件 下 ， 图 像 恢 复 技 术 可 分 为 无 约束 
和 有 约束 两 大 类 ; 根据 是 否 需要 外 来 干预 ， 图 像 恢复 技术 又 可 分 为 自动 和 交互 两 大 类 ; 另外 
根据 处 理 所 在 域 ， 图 像 恢 复 技 术 还 可 分 为 领域 和 空域 两 大 类 。 许 多 图 像 恢复 技术 借助 领域 处 
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理 的 概念 ， 但 越 来 越 多 的 空域 处 理 技 术 也 得 到 了 广泛 的 应 用 。 

如 果 从 广义 的 角度 上 来 看 图 像 恢复 ， 它 还 可 包括 对 在 图 像 采集 过 程 中 产生 的 几何 失真 
畸变 ) 进行 校正 ， 以 及 根据 对 物体 的 多 个 投影 重建 图 像 的 技术 。 前 一 种 情况 下 ， 将 图 像 的 
几何 失真 看 成 一 种 退化 ， 对 其 校正 则 看 作 是 一 种 恢复 过 程 。 后 一 种 情况 下 ， 将 图 像 的 投影 
作 一 种 退化 过 程 ， 而 将 重建 图 像 作为 一 种 恢复 手段 。 

图 4-30 给 出 一 个 简单 的 通用 图 像 退 化 模型 。 在 这 个 模型 中 ， 图 像 退 化 过 程 被 模型 化 为 
一 个 作用 在 输入 图 像 fx,y) 上 的 系统 了 , 它 与 1 个 加 性 噪声 n(x,y) 的 联合 作用 导致 产生 退化 
图 像 z(x,y) 。 根 据 这 个 模型 恢复 图 像 , 就 是 要 在 给 定 g(x,y) 和 代表 退化 的 五 的 基础 上 得 到 对 
f(x,y) 的 某 个 近似 的 过 程 ,这 里 假设 已 知 n(x,y) 的 统计 特性 。 

图 4-30 中 的 输入 和 输出 具有 如 下 关系 : n(x, V) 

g(x,y) = Alf(x,y)] c n(x,y) (448) 


先 假设 n(x,y) =0， 我 们 来 考虑 五 可 有 uu [ou 
mets EN 
































“~~ 



























































(1) RE WRS ki Mk WEA, fi, 图 4-30 简单 的 通用 图 像 退 化 模型 
y) 和 (x,y) 为 两 幅 输 入 图 像 ， 则 
Alhfi(xy) + E/i(x,y)] =hA (ay) ] +k HILA (n. y)] (449) 
(2) 相 加 性 ”上 式 中 如 果 色 = 和 =1， 则 变 成 
Hf (x,y) +f(x,y)] = HUR Q2] + HLf(x,y)] (4-50) 


线性 系统 对 两 个 输入 图 像 之 和 的 响应 等 于 它 对 两 个 输入 图 像 响应 的 和 。 
(3) 一 致 性 MRA y) = 0 ， 则 变 成 
HL Efi (x,y) ] = k BUR Oy) J (4-51) 
线性 系统 对 常数 与 任意 输入 乘积 的 响应 等 于 常数 与 该 输入 的 响应 的 乘积 。 
(4) 位 置 (空间 ) 不 变性 ”如 果 对 任意 f(x,y) 以 及 a lb, A 
Hif(x-a,y -b) ] 2 g(x - a,y - b) (4-52) 


4.3 ”图像 处 理 的 高 级 操作 


























4.3.1 图 像 的 边缘 检测 


图 像 的 边缘 是 图 像 的 最 基本 特征 。 所 谓 边缘 (或 边沿 ) 是 指 其 周围 像素 灰 度 有 阶 路 性 
变化 或 屋顶 状 变化 的 那些 像素 的 集合 。 边 缘 广 泛 存在 于 物体 与 背景 之 间 、 物 体 与 物体 之 间 、 
基 元 与 基 元 之 间 。 因 此 ， 它 是 图 像 分 割 所 依赖 的 重要 特征 。 在 本 节 将 介绍 图 像 边缘 的 检测 和 
提取 技术 。 

物体 的 边缘 是 由 灰 度 不 连续 性 所 反映 的 。 经 典 的 边缘 提取 方法 是 考察 图 像 的 每 个 像素 在 
某 个 邻 域内 灰 度 的 变化 ， 利 用 边缘 邻近 一 阶 或 二 阶 方向 导数 变化 规律 ， 用 简单 的 方法 检测 边 
缘 。 这 种 方法 称 为 边缘 检测 局 部 算 子 法 。 

边缘 可 以 分 为 两 种 : 一 种 称 为 阶 跃 性 边缘 ， 它 两 边 的 像素 的 灰 度 值 有 着 显著 的 不 同 ; 另 
一 种 称 为 屋顶 状 边缘 ， 它 位 于 灰 度 值 从 增加 到 减少 的 变化 转折 点 。 图 4-31 中 分 别 给 出 了 这 
两 种 边缘 的 示意 图 及 相应 的 一 阶 方向 导数 、 二 阶 方向 导数 的 变化 规律 。 对 于 阶 跃 性 边缘 ， 二 
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图 4.31 NBR PL AUR BU AE — Bh — BY PAE 
阶 方向 导数 在 边缘 处 呈 零 交叉 ; 而 对 于 屋顶 状 边缘 ， 二 阶 方向 导数 在 边缘 处 取 极 值 。 

如 果 一 个 像素 落 在 图 像 中 某 一 个 物体 的 边界 上 ， 那 么 它 的 邻 域 将 成 为 一 个 灰 度 级 的 变化 
带 。 对 于 这 种 变化 最 有 用 的 两 个 特征 是 灰 度 的 变化 率 和 方向 ， 它 们 分 别 以 梯度 向 量 的 幅度 和 
方向 来 表示 。 

边缘 检测 算 子 检查 每 个 像素 的 邻 域 ， 并 对 灰 度 变 化 率 进 行 量化 ， 也 包括 方向 的 确定 。 大 
多 数 使 用 基于 方向 导数 掩 模 求 卷 积 的 方法 。 

下 面 介 绍 几 种 常用 的 边缘 检测 算 子 。 

1. Robert 边缘 检测 算 子 

Robert 边缘 检测 算 子 是 一 种 利用 局 部 差分 算 子 寻找 边缘 的 算 子 。 它 由 下 式 给 出 : 

g(x,y) = dL fiu) -Varz+rly+l) € [Vf(x.y) - Vfix + 1,y +1) 17}? 

(4-53 ) 

式 中 ,f(x,y) 是 具有 整数 像素 坐标 的 输入 图 像 ， 平 方 根 运 算 使 该 处 理 类 似 于 在 人 类 视觉 系统 
中 发 生 的 过 程 。 
2. Sobel 边缘 检测 算 子 
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图 4-32 所 示 的 两 个 卷 积 核 形 成 了 Sobel 边缘 检测 算 子 ， 图 像 中 的 每 个 点 都 用 这 两 个 合作 


卷 积 ， 一 个 核对 通常 的 寻 





























EE 直 边缘 响应 最 大 ， 而 另 一 个 对 水 平 边缘 啊 应 最 大 。 两 个 卷 积 的 最 大 




















值 作 为 该 点 的 输出 位 。 运 算 结 果 是 一 幅 边 缘 幅 度 图 像 。 
3. Prewitt 边缘 检测 算 子 


图 4-33 所 示 的 两 个 卷 积 核 




















BMS Prewitt 边缘 检测 算 子 。 和 使 用 Sobel 边缘 检测 算 子 的 


方法 一 样 ， 图 像 中 的 每 个 点 都 用 这 两 个 和 进行 卷 积 ， 取 最 大 值 作为 输出 。Prewitt 边缘 检测 算 





子 也 产生 一 幅 边 缘 幅 度 图 像 。 
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图 4-32 Sobel 边缘 检测 算 子 


4. Kirsch 边缘 检测 算 子 
图 4-34 所 示 的 8 个 卷 积 核 组 成 了 Kirsch 边缘 检测 算 子 。 图 像 中 的 每 个 点 都 用 8 个 扼 模 


进行 卷 积 ， 每 个 掩 模 痢 对 某 个 特定 














到 4-33 Prewitt 边缘 检测 算 子 















































边缘 方向 作出 最 大 响应 ， 所 有 8 个 方向 中 的 最 大 值 作 为 边 
缘 幅 度 图 像 的 输出 。 最 大 响应 掩 模 的 序号 构成 了 边缘 方向 的 编码 。 
+5| +5| +5 -3|+5| +5 -3| -3| +5 -3| -3| -3 
-3|0 |-3 -3| 0 | +5 -3| 0 | 45 -3| 0 | 45 
-3| -3| -3 -3|-3|-3 -3| -3| +5 -3| +5] +5 
-3| -3| -3 -3|-3|-3 +5| -3| -3 +5| +5| -3 
-3| 0 | -3 +5| 0 | -3 +5| 0 | -3 +5] 0 | -3 
+5} 45) +5 +5} +5] -3 +5| -3| -3 -3| -3| -3 
























































5. 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 








拉 普 拉 斯 i 











边缘 检测 算 子 是 对 二 维 了 


缘 检 测算 子 如 图 4-35 所 示 。 





由 于 拉 普 
图 4-31 所 示 


由 于 噪声 点 对 边沿 检测 有 一 定 的 影 


竹 拉 斯 边缘 检测 算 子 是 


o 


图 4-34 Kirsch 边缘 检测 算 子 



































数 进行 运算 的 二 阶 导数 算 子 。 通 常 使 用 的 拉 普 拉 
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图 4-35” 拉 普 拉 斯 边缘 检测 算 子 














二 阶 导 数 ， 它 将 在 边缘 处 产生 一 个 陡峭 的 零 交 又 ， 如 





向 ， 所 以 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 是 效果 较 好 的 














边沿 检测 器 。 它 把 高 斯 平滑 滤波 器 和 拉 普 拉 斯 锐 化 滤波 器 结合 了 起 来 ， 先 平滑 掉 噪声 ， 再 进 
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行 边沿 检测 ， 所 以 效果 更 好 。 常 用 的 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 是 5 x 5 的 模板 : 
T "Ur E ES 
-4 0 8 0 -4 
| 
-4 0 8 0 -4 
n5. qb eA? BAT 0 
它 的 脉冲 响应 和 传递 函数 如 图 4-36 所 示 。 
































图 4-36 ”高 斯 - 拉 普 拉 斯 算 子 
a) 脉冲 响应 b) 传递 函数 





6. 边缘 检测 器 性 能 

上 述 边 缘 检 测算 子 产 生 的 边缘 图 像 看 来 很 相似 ， 因 此 它们 看 起 来 像 一 个 绘画 者 从 图 片 中 
做 出 的 线条 画 。Robert 边缘 检测 算 子 是 2 x2 SE, 对 具有 陡峭 的 低 噪声 图 像 响应 最 好 。 其 
他 三 个 边缘 检测 算 子 都 是 3 x3 算 子 ， 对 灰 度 渐 变 和 噪声 较 多 的 图 像 处 理 得 较 好 。 

使 用 两 个 掩 模板 组 成 的 边缘 检测 絮 时 ， 通 常 取 两 个 掩 模 检测 所 得 的 结果 中 幅度 较 大 的 作 
为 输出 值 。 这 使 得 它们 对 边缘 的 走向 有 些 敏感 ， 取 它们 的 二 次 方 和 的 平方 根 ， 可 以 获得 性 能 
更 一 致 的 与 真实 的 梯度 更 接近 的 全 方位 响应 。 

边缘 检测 的 几 个 示例 ， 如 图 4-37、 图 4-38 所 示 。 

NA RS SS 








图 4-37 边缘 检测 示例 
a) 原始 图 像 : 显微镜 下 看 到 的 细菌 “P) 用 Robert 边缘 检测 算 子 进行 处 理 的 结 
c) 用 Prewitt 边缘 检测 算 子 处 理 的 结果 d) 用 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 处 理 的 结 
由 于 Prewitt 边缘 检测 算 子 并 不 是 各 向 同性 的 ， 所 以 图 。 中 看 到 的 边缘 并 不 是 完全 连通 
的 ， 有 一 定 程 度 的 断 开 ; 而 使 用 Robert 和 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 就 不 存在 这 样 的 问题 。 
在 图 4-38 中 ， 将 看 到 Sobel 边缘 检测 算 子 也 存在 类 似 的 问题 。 解 决 这 个 问题 的 方法 是 把 它 扩 
展 成 八 个 方向 的 Sobel 和 Prewitt 边缘 检测 算 子 ， 并 且 可 以 像 使 用 Kirsch 边缘 检测 算 子 一 样 获 
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得 边缘 方向 图 ; 或 者 使 用 各 向 同性 的 Sobel 边缘 检测 算 子 。 


Youre 


ae, 





图 4-38 边缘 检测 示例 
a) 原始 图 像 : 血细胞 b) 用 Robert 边缘 检测 算 子 进行 处 理 的 结果 c) 用 Kirsch 边缘 检测 算 子 处 理 





H 












































的 结果 d) 用 高 斯 - 拉 普 拉 斯 边缘 检测 算 子 处 理 的 结果 e) 原始 图 像 f) 用 Robert 边缘 检 
ZA Hl 


测算 子 处 理 的 结果 g) 用 Prewitt 边缘 检测 算 子 处 理 的 结果 h) 用 Sobel 边缘 检测 算 子 处 理 的 结果 


4.3.2 ”图 像 的 Hough 变换 


AK y = mx +b 可 用 极 坐标 表示 为 
r = xcosÜ + ysing (4-54) 


AF, (7,0) 定义 了 一 个 从 原点 到 线 上 最 近 点 的 向 量 〈 见 图 4-39a) ， 这 个 向 量 与 该 直线 垂直 。 
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图 4-39 Hough 变换 
a) 一 条 直线 的 极 坐标 表示 b) x、y 平 面 c) ~、0 平面 

考虑 一 个 以 参数 "和 0 定义 的 二 维 空间 。x*、7y 平面 的 任意 一 直线 定义 了 该 空间 的 一 个 
Aio BIE, x. y 平面 的 任意 一 直线 的 Hough 变换 是 r+-、9 空间 的 一 个 点 。 

现在 考虑 x*、y 平面 的 一 个 特定 的 点 (xi ，y1)。 过 该 点 的 直线 可 以 有 很 多 条 ， 每 一 条 都 
对 应 了 r、9 空间 中 的 一 个 点 。 然 而 这 些 点 必须 是 满足 x, Aly, 作为 常量 时 的 等 式 。 因 此 在 参 
数 空间 中 ， 与 x*、y 空间 中 所 有 这 些 直线 对 应 的 点 的 轨迹 是 一 条 正弦 曲线 ， 而 *、y 平面 上 的 
任 一 点 〈 见 图 4-39b) 对 应 了 r、9 空间 的 一 条 正弦 曲线 〈 见 图 4-39c ) 。 

如 果 有 一 组 位 于 由 参数 m 和 b 决定 的 直线 上 的 边缘 点 ， 则 每 个 边缘 点 对 应 了 r、9 空间 
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的 一 条 正弦 曲线 。 所 有 这 些 曲线 必 交 于 点 (r。，0。) ， 因 为 这 是 它们 共享 的 一 条 直线 的 参数 。 

为 了 找 出 这 些 点 所 构成 的 直线 段 ， 可 以 将 +-、9 空间 量化 成 许多 小 格 。 根 据 每 一 个 〈xo， 
yo) 点 代入 9 的 量化 值 ， 算 出 各 个 r-， 所 得 的 值 〈 经 量化 ) 落 在 某 个 小 格 内 ， 便 使 该 小 格 的 
计数 累加 器 加 1， 当 全 部 (x, y) 点 变换 后 ， 对 小 格 进行 检验 ， 有 大 的 计数 值 的 小 格 对 应 于 
KARS, A (rn, 0) 可 用 作 直 线 拟 合 参数 。 有 小 的 计数 值 的 各 小 格 一 般 反 映 非 共 线 点 ， 应 丢 
弃 不 用 。 

可 以 看 出 ， 如 果 + 和 0 量化 得 过 粗 ， 则 参数 空间 的 凝聚 效果 较 差 ， 找 不 出 直线 的 准确 的 
r 和 9 值 ; 反 过 来 ， 如果 +r、9 量化 得 过 细 ， 那 么 计算 量 将 增 大 ， 需 要 兼顾 这 两 个 方面 ， 取 合 
适 的 量化 值 。 

若 图 像 中 各 点 是 边沿 元 ， 而 且 梯 度 方向 已 求 出 ， 在 寻找 有 无 直线 边 治 时 ， 可 在 其 梯度 方 
向 内 把 0 精细 量化 ， 其 他 o 角 则 粗 量 化 ， 这 样 在 不 增加 总 的 量化 小 格 数 的 情况 下 ， 可 以 提高 
检测 直线 边沿 的 方向 角 的 精度 。 

对 于 圆 ， 可 写 出 其 方程 为 









































(x-a) +(y-b)? =R (4-55) 
这 时 参数 空间 增加 到 三 维 ， 由 a、5、R 组 成 。 如 果 仍 然 像 找 直 线 那 样 直接 计算 ， 那 么 
计算 量 和 存储 空间 部 将 显著 增 大 。 
如 果 已 知 有 圆 的 边沿 元 ， 而 且 边 治 元 为 已 知 ， 那 么 可 以 简化 为 二 维 的 问题 。 因 为 把 上 式 
对 x 取 导 数 ， 有 









































3 (sed) £20 - 4) 2 -0 (4-56) 


这 表示 参数 a 和 不 独立 ， 利 用 这 个 关系 以 后 ， 解 上 式 只 需 用 两 个 参数 (例如 5 和 RR) 
组 成 参数 空间 ， 计 算 量 减 少 了 很 多 。 

在 人 为 景物 中 国 形 物体 经 常 出 现 ， 经 过 透视 成 像 后 由 圆 变 成 椭圆 。 寻 找 椭圆 的 算法 可 以 
仿照 寻找 元 的 算法 来 进行 。 


























设 椭圆 方程 为 
(x 一 1 s (y = -1 (4-57) 
取 导 数 有 
(x - xo) (Yy-») dy _ 
m E ae a = (4-58) 
可 以 看 到 这 里 有 三 个 独立 参数 。 如 果 椭 圆 主轴 不 平行 于 坐标 轴 ， 则 可 写 为 
Ax! + Buy + Cy? +Dr+Er+l=0 (4-59) 


在 利用 椭圆 边沿 的 方向 信息 后 ， 在 映射 空间 的 独立 参数 仍 有 四 个 之 多 ， 为 了 简化 求 椭 圆 
的 计算 ， 还 需要 其 他 的 特殊 解法 ， 这 里 就 不 多 介绍 了 。 


4.3.3 ”轮廓 的 提取 与 跟踪 


轮廓 提取 和 轮廓 跟踪 的 目的 都 是 获得 图 像 的 外 部 轮廓 特征 。 在 必要 的 情况 下 ， 应 用 一 定 
的 方法 表达 轮廓 的 特征 ， 为 图 像 的 形状 分 析 做 准备 。 
二 值 图 像 轮廓 提取 的 算法 非常 简单 ， 就 是 掏 空 内 部 点 : 如 果 原 图 中 有 一 点 为 黑 ， 且 它 的 
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8 个 相 邻 点 都 是 黑色 〈 此 时 该 点 是 内 部 点 ) 时 ， 则 将 该 点 删除 。 

联系 到 4. 2. 3 节 数 学 形态 学 的 内 容 ， 可 以 看 到 ， 这 实际 上 相当 于 用 一 个 九 个 点 的 结构 元 
素 对 原 图 像 进行 腐蚀 。 再 用 原 图 像 减 去 腐蚀 图 像 。 

图 像 的 轮廓 提取 过 程 如 图 4-40 及 图 4-41 所 示 。 




















到 4-40 原始 图 像 到 4-41 轮廓 提取 的 结果 


轮廓 跟踪 的 基本 方法 是 先 根据 某 些 严格 的 “探测 准则 ” 找 出 目标 物体 轮廓 上 的 像素 ， 
再 根据 这 些 像素 的 某 些 特征 用 一 定 的 “跟踪 准则 ” 找 出 目标 物体 上 的 其 他 像素 。 下 面 来 介 
绍 两 种 二 值 图 像 轮廓 跟踪 的 算法 。 

首先 找到 第 一 个 边界 像素 的 “探测 准则 ”是 : 按照 从 左 到 右 、 从 下 到 上 的 顺序 搜索 ， 
找到 的 第 一 个 黑 点 一 定 是 最 左下 方 的 边界 点 ， 记 为 4。， 它 的 右 、 右 上 、 上 上 、 左 上 四 个 邻 点 
中 至 少 有 一 个 是 边界 点 ， 记 为 B,， 从 B 开始 找 起 ， 按 右 、 右 上 、 上 、 左 上 、 左 、 左 下 、 下 、 
右 下 的 顺序 找 相 邻 点 中 的 边界 点 C。 如 果 C 就 是 4 点 ， 则 表明 已 经 转 了 一 圈 ， 程 序 结束 ; (€ 
WA C 点 继续 找 ， 直 到 找到 4 为 止 。 判 断 是 不 是 边界 点 很 容易 : 如 果 它 的 上 下 左右 四 个 邻 
点 都 不 是 黑 点 ， 则 它 即 为 边界 点 〈 即 跟踪 准则 ) 。 

这 种 算法 要 对 每 个 边界 像素 周围 的 八 个 点 进行 判断 ， 计 算 量 比较 大 。 下 面 首先 按照 上 面 
所 说 的 “探测 推 则 ”找到 最 左下 方 的 边界 点 。 以 这 个 边界 点 起 始 ， 假 设 已 经 沿 顺 时 针 方向 
环绕 整个 图 像 一 轿 ， 找 到 了 所 有 的 边界 点 。 由 于 边界 是 连续 的 ， 所 以 每 一 个 边界 点 都 可 以 用 
这 个 边界 点 对 前 一 个 边界 点 所 张 的 角度 来 表示 。 因 此 可 以 使 用 下 面 的 跟踪 准则 : 从 第 一 个 边 
界 点 开始 ， 定 义 初 始 的 搜索 方向 为 沿 左 上 方 ; 如 果 左 上 方 的 点 是 黑 点 ， 则 为 边界 点 ， 否 则 搜 
索 方向 顺 时 针 旋转 45$"。 这 样 一 直到 找到 第 一 个 黑 点 为 止 。 然 后 把 这 个 黑 点 作为 新 的 边界 
点 ， 在 当前 搜索 方向 的 基础 上 闭 时 针 旋 转 90。， 继 续 用 同样 的 方法 继续 搜索 下 一 个 黑 点 ， 直 
到 返回 最 初 的 边界 点 为 止 。 

再 来 看 另外 一 种 跟踪 准则 。 

图 4-42 为 这 一 轮廓 跟踪 算法 的 示意 图 ， 其 中 箭头 代表 搜索 方向 。 

图 4-43 给 出 了 使 用 这 一 算法 对 图 4-40 进行 轮廓 跟踪 的 结果 
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图 4-42 ”轮廓 跟踪 算法 图 4-43 ”轮廓 跟踪 结果 
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在 实时 的 人 脸 识别 和 表情 识别 系统 中 ， 人 脸 检 测 是 系统 实现 的 基础 和 前 提 ， 人 脸 检 测 效 
果 会 直接 影响 系统 识别 效果 。 近 几 年 来 ， 随 着 网 络 的 发 展 ， 视 频 会 议和 远程 教育 逐渐 变 成 了 
现实 。 在 这 类 应 用 中 ， 人 脸 的 检测 和 跟踪 也 是 其 中 不 可 缺少 的 一 个 过 程 ， 因 而 成 为 技术 热 
点 ， 出 现 了 许多 新 的 算法 。 本 章 主要 介绍 一 些 常见 的 人 脸 检测 和 跟踪 技术 。 


5.1 ARRIM 











5.1.1 人 脸 检 测 方法 的 分 类 


人 脸 检 测 是 指 在 图 像 或 视频 流 中 确定 所 有 人 脸 〈 如 果 存 在 ) 的 位 置 、 大 小 的 过 程 ， 其 
应 用 已 经 远 远 超出 了 人 脸 识别 系统 的 范畴 ， 在 基于 内 容 的 检索 、 数 字 视 频 处 理 、 视 觉 监测 等 
方面 有 着 重要 的 应 用 价值 。 人 脸 检 测 的 算法 总 的 说 起 来 可 以 归纳 为 以 下 几 类 。 

l. 基于 肤色 的 检测 方法 

肤色 方法 是 最 常用 的 方法 之 一 ， 也 是 最 容易 理解 的 。 它 的 主要 手段 就 是 利用 人 脸 肤 色 与 
周围 环境 颜色 的 差异 ， 通 过 肤色 将 人 脸 与 背景 环境 区 分 开 来 。 目前， 在 各 种 颜色 空间 (如 
RGB, YCrCb, YIQ 等 ) 中 ， 都 有 人 提出 过 肤色 模型 ， 这 些 肤 色 模 型 各 有 特点 ， 有 的 对 色调 
敏感 ， 有 的 对 色调 不 敏感 而 受 亮度 影响 较 大 等 ， 所 以 一 般 综合 使 用 几 种 肤色 模型 ， 这 样 能 达 
到 更 好 的 效果 。 

2. 基于 形状 的 检测 方法 

这 类 方法 利用 了 人 脸 和 五 官 的 形状 信息 ， 用 一 些 形状 模型 来 匹配 人 脸 ， 比 如 说 用 椭圆 来 
描述 人 脸 ， 通 过 从 图 像 中 找 出 类 椭圆 的 区 域 来 粗 检测 人 脸 ， 或 者 是 将 人 脸 分 为 很 多 的 马赛 克 
分 格 区 域 ， 利 用 这 些 区 域 的 特征 关系 来 粗 检 测 出 人 脸 ， 接 下 来 再 用 其 他 的 方法 来 验证 所 找到 
的 区 域 是 否 为 人 脸 。 

3. 基于 特征 的 检测 方法 

这 类 方法 主要 是 利用 了 一 些 人 脸 的 特征 来 检测 人 脸 ， 比 如 说 通过 人 脸 的 灰 度 分 布 特征 用 
统计 的 方法 找 出 人 脸 的 共性 ， 从 而 检测 出 人 脸 。 

上 面 介绍 的 是 人 脸 检 测 的 主流 方法 分 类 ， 下 面 的 章节 中 ， 将 会 就 每 一 种 类 别 ， 介 绍 一 种 
具体 的 方法 。 
5.1.2 基于 肤色 的 人 脸 检测 

根据 计算 机 色彩 理论 ， 对 一 种 颜色 而 言 ， 在 计算 机 中 有 不 同 的 表达 方式 ， 这 样 就 形成 了 
各 种 不 同 的 色彩 空间 。 当 然 各 种 色彩 之 间 只 不 过 是 颜色 在 计算 机 内 不 同 的 表达 形式 而 已 ， 每 
一 种 色彩 空间 也 都 有 其 各 自 的 产生 背景 、 应 用 领域 等 。 主 要 的 色彩 空间 有 以 下 几 种 。 

1. RGB 格式 ( 红 、 绿 、 蓝 三 基色 模型 ) 
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由 于 彩色 图 像 是 多 光谱 图 像 的 一 种 特殊 情况 ， 对 应 于 人 类 视觉 的 三 基色 即 红 、 绿 、 蓝 三 
个 波段 ， 是 对 人 有 眼 的 光谱 量化 性 质 的 近似 。 因 此 利用 R、Q、B 三 基色 这 三 个 分 量 来 表征 颜 
色 是 很 自然 的 一 种 格式 。 而 且 多 数 的 图 像 采 集 设备 都 是 以 电荷 耦合 器 件 (CCD) 为 核心 ， 
直接 感知 色彩 的 R、G、B 三 个 分 量 ， 这 也 使 得 三 基色 模型 成 为 图 像 成 像 、 显 示 、 打 印 等 设 
备 的 基础 ， 具 有 十 分 重要 的 作用 。 

2. HSI 格式 (EÈ, ifp, RARA) 

这 是 Munseu 提出 的 色彩 系统 模型 ， 经 常 为 艺术 家 所 使 用 。 这 种 格式 反映 了 人 类 观察 色 
彩 的 方式 ， 同 时 也 有 利于 图 像 处 理 。 在 对 色彩 信息 的 利用 中 ， 这 种 格式 的 优点 在 于 它 将 亮度 
(D 与 反映 色彩 本 质 特 性 的 两 个 参数 即 色 度 (H) 和 饱和 度 (S) 分 开 。 我 们 提取 一 类 物体 
(比如 现在 研究 的 人 脸 ) 在 色彩 方面 的 特性 时 ， 经 常 需要 了 解 其 在 某 一 色彩 空间 的 聚 类 特 
性 ， 而 这 一 聚 类 特性 往往 体现 在 色彩 的 本 质 特性 上 ， 而 又 经 常 受到 光照 明暗 等 条 件 的 干扰 影 
响 。 光 照明 暗 给 物体 颜色 带 来 的 直接 影响 就 是 亮度 分 量 (1) ， 所 以 若 能 将 亮度 分 量 从 色彩 
中 提取 出 去 ， 而 只 用 反映 色彩 本 质 特性 的 色 度 、 饱 和 度 来 进行 聚 类 分 析 ， 会 获得 比较 好 的 效 
果 。 这 也 正 是 HSI 格式 在 彩色 图 像 处 理 和 计算 机 视觉 的 研究 中 经 常 被 使 用 的 原因 。 

3. YCbCr (YUV) 格式 

这 种 色彩 空间 是 以 达到 演播 室 质量 标准 为 目标 的 CCIR601 编码 方案 中 采用 的 彩色 表示 
模型 ， 被 广泛 地 应 用 在 电视 的 色彩 显示 等 领域 中 。 它 同样 具有 HSI 格式 中 将 亮度 分 量 分 离 的 
优点 ， 但 由 于 它 可 以 从 RGB 格式 线性 变化 得 到 ， 所 以 直接 应 用 于 物体 色彩 聚 类 分 析 的 情况 
不 多 ， 相 比 之 下 ， 建 立 在 其 基础 上 的 变换 模型 的 应 用 更 为 普遍 。 

以 上 介绍 了 在 计算 机 视觉 领域 ， 特 别 是 肤色 信息 的 提取 中 ， 比 较 和 常用 的 几 种 色彩 格式 ， 
目前 这 几 种 色彩 空间 在 建立 物体 色彩 模型 中 都 有 应 用 。 例 如 : RGB 色彩 空间 在 利用 查找 表 
建立 的 肤色 模型 中 很 常见 ; 也 有 作者 在 提取 展 色 在 色彩 空间 中 的 聚 类 特性 时 ， 直 接 利 用 了 
YCb Cr (YUV) 色彩 空间 ; A. K. Jain 等 人 利用 变形 的 YCbCr 色彩 空间 ， 进 行 了 彩色 图 像 中 
的 人 脸 检测 问题 的 研究 。 

下 面 来 说 一 下 肤色 模型 的 建立 : 

肤色 模型 是 人 脸 非常 重要 的 一 个 特性 。 研 究 表明 : 尽管 不 同 种 族 、 不 同年 龄 、 不 同性 别 
的 人 的 肤色 看 上 去 不 同 ， 但 这 种 不 同 主 
要 集中 在 亮度 上 ， 在 去 除 亮度 的 色 度 空 
间 里 ,不 同 肤 色 的 分 布 具有 聚 类 性 。 为 
了 利用 肤色 在 色 度 空间 的 聚 类 性 ， 本 书 
在 多 种 色彩 空间 中 选取 YCbCr 色彩 空间 
进行 肤色 提取 。 

经 过 对 大 量 肤 色 像 素 的 分 析 看 出 ， 
JK GRACE YCbCr 色 度 空间 的 一 个 很 小 
的 范围 内 。 归 一 化 色 度 分 布 图 ， 可 以 看 
出 不 同 的 肤色 具有 相同 的 二 维 高 斯 模型 
G= (7m，C)， 如 图 5-1 Prax, FEA, m 


为 均值 , m=E (x); x= (Cb, Cr)”, C 
HHFA, CHE [ (x-m) (x- 图 5-1 肤色 在 YCbCr 色 度 空间 中 的 高 斯 模型 分 布 
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m)']. 

通过 这 个 肤色 模型 分 布 可 得 到 待 检测 彩色 图 像 中 任意 一 个 像素 点 属于 皮肤 的 概率 。 对 于 
某 像素 点 s， 从 RGB 空间 转换 到 YCbCr 色彩 空间 得 到 色 废 值 (Cb，Cr) ， 则 该 像素 的 肤色 概 
率 密度 可 由 下 式 计算 得 到 : 

p(Cb,Cr) =exp[ -0.5(x -m)'C^! (x -m)] (5-1) 

式 中 , «= (Cb, Cr)", 

实验 证 明 ， 此 高 斯 模型 能 较 好 地 分 出 肤色 和 非 肤色 像素 。 

浆 值 的 选取 很 重要 ， 过 低 会 使 肤色 的 数量 增加 ， 过 高 则 会 使 过 多 肤色 被 误 认 为 背景 ， 两 
者 都 会 影响 后 续 检 测 的 效果 。 因 此 ， 能 够 依据 待 检测 图 像 本 吴 自 动 优选 净值 ， 就 显得 非常 重 
要 和 必要 。 经 过 分 析 比 较 ， 本 书 最 终 选用 由 Os 提出 的 最 大 类 间 方 差 闵 值 分 割 法 ， 它 是 在 
最 小 二 乘法 原理 基础 上 推导 出 来 的 ， 其 基本 思路 是 将 直方 图 在 某 一 国 值 处 理 分 割 成 两 组 ， 当 
分 成 两 组 的 方差 为 最 大 时 ， 决定 病 值 。 

设 一 幅 图 像 的 灰 度 值 为 1 -m 级 ， 灰 上 度 值 为 i 的 像素 数 为 n;， 此 时 得 到 总 像素 数 N 和 各 
































N=> n (5-2) 


(5-3) 


然后 用 将 其 分 成 两 组 C6。= [1 -k} AIC, = iktl, c, mj ,由 Co 和 Ci 产生 的 概率 oo、 
ey 为 


wy =>, pr = (k) (5-4) 
o= p 2l-e () (5-5) 
C, 组 和 C, 组 的 平均 值 w 和 为 
PS CR) 
m=), ey wk) S 
v P. u-pu(k) (5-7) 


人 ol 1-o(k) 





WF, 是 整体 图 像 的 平均 值 ， yd ip a CE) EREN k OPEL, p(k)=> ipio 
因此 ， 全 部 采样 的 灰 度 平均 值 为 k= wooo + ww ， 则 类 间 方 差 由 下 式 求 出 : 


a^ (k) =o, (Lo -n) +w; (mi -u) = 0900 (Ai = py)” = NONE EP on 








(5-8) 

A1 - m [RIBUS k, Rmax (o° (k)), JEET K (EEE TOR BUE. 
肤色 模型 建立 的 步 又 : 对 于 一 幅 被 检测 的 彩色 图 像 image (ILE 5-2a) ， 首 先 将 它 由 
RGB 空间 转换 到 YCbCr 色彩 空间 ， 然 后 根据 (Cb, Cr) W, WER (5-1) 找到 该 值 所 对 
应 的 肤色 似 然 度 ， 并 且 得 到 整 幅 图 像 的 最 大 肤色 似 然 度 。 每 一 点 像素 的 肤色 似 然 度 除 以 最 大 
肤色 似 然 度 所 得 到 的 值 ， 作 为 该 像素 点 的 灰 度 值 ， 从 而 得 到 肤色 似 然 图 像 ， 其 中 每 一 个 像素 
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IA FIR BEE ASE TXB Um T BOKER. Be EI BEE [0.2, 0.7], TE 
照 0.05 的 步 长 逐步 增加 ， 根 据 式 (5-6) 计算 在 不 同 闵 值 下 肤色 似 然 图 像 y 的 oo (Ck) f, 
Mo? (k) 最 大 时 ,确定 闵 值 7。 根据 此 闵 值 将 灰 度 图 像 转 化 为 二 值 图 像 ， 其 中 0 和 1 分 别 
表示 非 肤色 点 和 肤色 点 。 














图 5-2 REG SUE ER 
a) 原始 图 像 b) 肤色 似 然 图 像 c) 二 值 图 像 

进行 肤色 分 割 后 ， 首 先 采 用 中 值 滤波 来 去 除 人 脸 图 像 中 的 噪声 。 由 肤色 分 割 得 到 一 系列 
连通 的 肤色 区 域 ， 但 其 中 也 包含 了 裸露 在 外 的 身体 皮肤 和 与 肤色 相近 的 背景 ， 接 着 就 要 根据 
一 些 移 验 知识 对 分 割 出 来 的 区 域 进 行 预 处 理 。 

面积 占有 率 是 指 肤 色 区 域 的 像素 占 整 幅 图 像 总 像素 数 的 比例 。 通 常 在 一 幅 图 像 中 ， 人 脸 
区 域 范围 为 13 x13 像素 到 占 整 幅 图 像 的 344， 太 大 或 太 小 的 人 脸 均 不 易 清 晰 提取 。 在 本 书 
中 ， 当 面积 占有 率 达 于 3/4 或 小 于 1/500 时 ， 此 部 分 区 域 被 认为 是 非 人 脸 区 域 。 

由 于 人 脸 区 域 包含 眼睛 、 眉 毛 、 嘴 层 等 非 肤色 区 域 , 因此 人 上 脸 区 域 应 包含 1 个 到 多 个 
了 筷 。 欧 拉 数 表示 在 封闭 区 间 中 的 孔洞 数量 ,定义 为 =C -有 。 其 中 ,为 连通 区 域 的 欧 拉 
数 ;C 为 连通 区 域 数 目 ， 这 里 为 1; 互 为 连通 区 域内 孔洞 数 。 对 于 每 个 连通 区 域 ， 若 其 欧 拉 
数 大 于 0， 则 该 区 域 不 可 能 是 人 脸 区 域 ; 若 太 小 ， 也 不 可 能 是 人 脸 区 域 。 本 书 中 ， 若 计算 出 
的 欧 拉 数 小 于 -10， 则 认为 该 区 域 不 是 人 脸 区 域 。 

本 书 用 椭圆 准则 来 检测 每 个 肤色 区 域 是 否 为 人 脸 区 域 。 

汕 先 求 出 每 一 块 肤色 区 域 中 肤色 像素 的 华 标 均值 和 协 方差 窟 阵 : 


poy DX (5-9) 





























N 
Im XX -py" -1 
Cay > XX -un (5-10) 


WF, N 是 肤色 区 域 的 肤色 像素 的 总 数 ; X, 是 该 区 域 的 像素 点 在 二 值 图 像 中 的 坐标 向 量 。 
研究 表明 ， 被 测 肤 色 区 域内 的 像素 点 呈 椭 圆 分 布 ， 该 椭圆 的 中 心 就 是 均值 代表 的 坐标 ， 
主轴 方向 与 协 方差 矩阵 的 特征 向 量 方向 一 致 ， 椭 圆 轴 长 由 协 方差 矩阵 的 特征 值 决定 。 检 测算 
法 如 下 : 
1) 根据 人 脸 长 宽 比 检测 肤色 区 域 。 通 常情 况 下 ， 人 脸 的 长 宽 之 比 一 般 为 1 左右 , 但 由 
于 须 部 党 被 作为 肤色 区 域 提 取出 来 连接 着 脸 部 ， 因 此 肤色 区 域 的 长 宽 会 比较 大 。 如 果 椭 圆 轴 
长 之 比 不 在 [0.33, 3] 范围 内 ， 则 被 认为 是 非 人 脸 区 域 而 除去 。 
2) 根据 椭圆 面积 准则 检测 肤色 区 域 。 椭 圆 面积 准则 表达 式 为 
4N 
c» ml, l, 











(5-11) 
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AF, LRL, 为 椭圆 的 轴 长 ; N 为 肤色 区 域 像素 点 数 。 
这 样 ， 根 据 椭圆 面积 准则 就 可 以 算出 每 个 肤色 区 域 属 于 人 脸 区 域 的 概率 。 如 果 被 测 区 域 
的 S, 的 值 超过 0.7 ( 国 值 )， 则 该 区 域 包含 人 脸 。 


5.1.3 基于 形状 的 人 脸 检测 


这 里 具体 介绍 马赛 克 方 法 ( 镶 舱 图 方法 )。 其 基本 思路 就 是 将 人 脸 分 为 若干 低 分 辨 率 马 
赛 克 子 块 ， 利 用 人 脸 各 子 块 之 间 的 相互 关系 进行 人 脸 检 测 。 

l. 标准 分 块 策略 

参考 文献 [11] 提出 了 一 种 新 的 分 块 方法 ， 即 广义 的 三 分 图 。 相 比 之 下 ， 这 种 基于 器 官 
的 分 块 方法 ， 充 分 利用 了 人 脸 器 官 的 自然 分 布 ， 规 则 制订 过 程 中 ， 对 先 验 知识 的 利用 更 加 直 
观 ， 并 使 马赛 克 子 块 对 脸形 的 自 适 应 操作 成 为 可 能 ， 从 而 提高 了 检测 效率 和 和 鲁 棒 性 。 

参考 文献 [11] 设 计 的 基于 需 官 的 马赛 克 人 脸 模 型 如 图 5-3 所 示 ， 子 块 0 对 应 于 左 眼 区 域 
(包括 眼眉 部 分 ) ， 子 块 2 对 应 于 右 眼 区 域 ， 子 块 4 对 应 于 鼻子 区 域 ， 子 块 7 对 应 于 嘴巴 ， 子 
块 (3, 6, 5, 8) 对 应 于 两 侧 脸 颊 。 假 定子 块 (0, 3, 6) 与 子 块 (2, 5, 8) 具有 大 致 相 
同 的 宽度 ， 子 块 (1, 4, 7) 宽度 相同 ， 所 有 的 子 块 高 度 大 致 相同 。 经 过 子 块 形状 自 适 应 
后 ， 上 述 分 割 将 有 些 变化 ， 但 保持 同一 行 三 个 子 块 高 度 相 同 ， 同 一 列 三 个 子 块 宽度 相同 。 如 
前 所 述 ， 由 于 脸形 的 不 同 ， 对 多 数 的 圆 脸 和 方形 脸 采 用 方形 的 子 块 分 割 是 合理 而 有 效 的 。 对 
明显 瘦长 形 脸 、 扁 宽 形 脸 等 ， 则 应 采用 相应 的 矩形 分 块 策略 ， 以 免 由 于 无 法 形成 合理 的 马赛 
克 和 覆盖 而 造成 检测 漏 报 。 考 虑 到 多 数 情 况 下 ， 人 脸 可 能 的 纵横 比 在 0.8 ~1.3 之 间 ， 而 马赛 
克 方 法 对 小 范围 内 纵横 比 的 变化 不 敏感 ， 可 简单 量化 为 3 ~5 个 量 级 ,但 即使 如 此 ， 运 算 量 
也 会 成 比例 增加 ， 因 此 他 们 和 采用 了 块 形 状 的 自 适 应 技术 来 缓和 这 一 矛盾 。 




































































图 5-3 ”马赛 元 人 脸 模 型 
a) 四 分 块 策略 b) 基于 器 官 的 分 块 c) 马赛 克 分 块 























2. 粗 检测 

由 于 块 统计 量 的 计算 过 程 比 较 费 时 ， 为 尽 可 能 快速 地 完成 检测 过 程 ， 需 要 进行 高 效率 的 
粗 检 测 。 粗 检测 环节 包括 利用 检测 环境 信息 的 粗 检测 和 利用 人 脸 囊 官 信息 的 粗 检测 两 个 子 过 
程 ， 后 一 过 程 更 具有 普遍 意义 。 显 然 ， 如 果 能 通过 某 种 方法 稳定 地 检测 到 人 脸 模 型 大 马赛 克 
块 的 左上 角 ， 则 搜索 可 局 限 在 这 个 左上 角子 集合 上 进行 ， 从 而 显著 减 小 搜索 空间 、 降 低 计算 
量 ， 称 这 种 能 被 稳定 检测 的 人 脸 区 域 上 的 代表 点 (区域 为 基准 点 或 锚 点 。 理 想 的 销 点 应 
该 是 在 不 同 表情 下 位 置 比较 稳定 ， 并 且 易 于 检测 的 点 。 如 眉 角 、 了 眼角 、 嘴 角 等 ， 了 眼球、 鼻孔 
在 某 些 简单 摄像 条 件 下 最 易于 检测 ， 我 们 的 粗 检测 方法 就 基于 眼球 检测 。 

通过 观察 发 现 ， 在 适当 的 分 辨 紊 下， 人 了 眼 的 眼球 大 致 可 视 为 一 个 白 背 景 上 的 椭圆 形 实心 
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黑 块 〈 对 眼球 的 反光 可 通过 中 值 滤波 加 以 抑制 )， 图 54a、b 所 示 为 小 眼睛 CIR) 和 大 了 眼 
E (RIR) 的 情况 。 这 种 实心 小 黑 块 可 用 中 央 四 DoG 算 子 〈 见 图 5-5) 进行 相关 检测 。 粗 
检测 首先 形成 一 个 特定 尺度 下 锚 点 置信 和 度 图 ， 图 中 每 个 点 的 值 表示 该 尺度 下 ， 该 点 周边 地 区 
与 人 眼球 模型 的 相似 程度 。 对 各 尺度 下 锁 点 置信 度 图 进行 局 部 阅 值 二 值 化 ， 得 到 粗 检测 的 错 
点 集合 ， 它 将 指导 候选 区 域 的 筛选 工作 。 


图 5-4 眼球 的 简化 模型 
a) 小 眼睛 b) 大 眼睛 图 5-5 PRE DoG 算 子 











3. 层次 化 局 部 搜索 方法 与 块 形状 自 适应 

层次 化 局 部 搜索 是 为 进一步 减 小 搜索 空间 、 提 高 计算 效率 而 设计 的 。 若 粗 检 测 得 到 的 销 
点 集合 中 点 数 仍 比较 多 时 ， 则 应 先进 行 层 次 化 局 部 搜索 过 滤 筛 选 ， 使 尽 可 能 少 而 精 的 锚 点 子 
集 送 到 下 一 级 块 形状 自 适 应 环节 。 具 体 而 言 ， 是 通过 不 断 引 入 子 块 级 的 局 部 通用 规则 知识 ， 
使 锚 点 集 不 断 精 练 。 比 如 在 子 块 的 层次 ， 计 算 以 当前 销 点 集合 中 每 一 点 为 锚 点 时 ， 相 应 子 块 
0 与 子 块 3 的 平均 梯度 差 作 为 该 点 成 为 新 锚 点 的 置信 度 水 平 ， 从 而 得 到 一 个 新 的 锚 点 置信 
度 。 对 此 锚 点 置信 度 上 进行 局 部 二 值 化 ， 得 到 更 小 的 修正 销 点 子 集 。 对 此 小 子 集 进行 完整 的 
块 形状 上 自 适应 和 块 统计 量 计算 并 运用 规则 进行 人 脸 检 测 。 

人 有 多 种 自然 脸型 ， 如 圆 脸 、 方 脸 、 瓜 子 脸 等 。 不 同 脸型 下 ， 面 部 器 官 分 布 的 差异 非常 
大 ， 采 用 固定 的 分 块 策略 〈 如 方形 或 长 方形 ) 很 难 满足 各 种 脸形 情况 ， 为 此 引入 了 块 尺寸 、 
形状 的 自 适 应 技术 ， 动 态 地 适应 脸形 的 变化 。 它 分 为 两 个 层次 : 首先 对 块 内 马赛 克 子 块 划分 
进行 调整 ， 之 后 进行 马赛 克 大 块 整体 的 扩张 和 收缩 。 后 者 主要 用 于 最 后 的 候选 区 域 合并 过 
程 ， 而 前 者 是 在 每 次 完整 计算 子 块 统计 量 之 前 进行 。 具 体操 作 时 ， 这 一 环节 是 在 整体 分 块 尺 
才 大 致 不 变 的 情况 下 ， 按 某 种 经 验 主义 的 能 量 函 数 对 左右 两 列子 块 的 宽度 和 上 下 两 行 子 块 的 
高 度 进行 小 范围 调整 。 参 考 文献 [11 ] 给 出 一 个 调整 子 块 (2，5，8) 宽度 的 简单 能 量 函 数 如 
FX: 






























































f(x) =C [2] -6,, [5] (5-12) 
它 实 际 上 反映 的 是 块 2 与 块 5 的 梯度 对 比 度 。 在 一 定 范围 内 ， 通 过 使 上 述 梯度 对 比 度 能 量 函 
数 最 大 化 ， 实 现 对 马赛 克 子 块 (2, 5, 8) 的 宽度 进行 局 部 的 调整 。 同 样 道理 ， 可 实现 对 马 
赛 克 子 块 (0, 3, 6) 的 宽度 调整 。 
完成 对 脸型 的 块 形状 自 适应 后 ， 就 可 以 完整 地 计算 各 种 马赛 克 块 统计 量 ， 并 应 用 马赛 克 
规则 进行 人 脸 图 像 块 的 筛选 。 
4. 块 统计 量 的 选择 和 规则 制订 
人 脸 灰 度 图 像 上 包含 的 信息 很 多 ， 寻 找 并 采用 计算 简便 、 稳 定 反 映 各 融 官 马赛 克 子 块 区 
别 的 统计 量 ， 对 规则 制订 的 影响 非常 大 。 人 的 人 脸 认 知 和 检测 过 程 是 在 丰富 知识 模型 指导 下 
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进行 的 ， 完 全 由 计算 机 实现 要 遇 到 很 多 困难 。 他 们 采用 了 基于 水 平方 向 梯度 强度 和 梯度 方向 
的 区 域 统 计量 ， 因 为 它们 的 稳定 性 和 区 别 性 都 非常 强 。 

马赛 克 方 法 除了 前 述 若 干 技术 〈 效 率 与 鲁 棒 性 ) 实现 的 考虑 之 外 ， 最 终 决 定 检测 性 能 
〈 虚 和 警 、 漏 报 联合 损失 ) 的 是 马赛 克 规 则 ， 它 是 标准 人 脸 模型 的 量化 表现 。 一 方面 该 模型 要 
有 较 大 的 适用 范围 ， 即 有 较 好 的 模型 弹性 ， 以 降低 漏 报 率 ; 另 一 方面 要 尽 可 能 的 严格 ， 增 强 
约束 力 ， 以 降低 虚 警 。 马 赛 克 规则 的 制订 ， 首先 要 考虑 对 如 下 多 样 性 的 支持 和 容许 : 

1) 脸形 的 影响 : 对 圆 脸 和 方形 脸 ， 子 块 6、8 基本 在 脸 的 范围 之 内 ， 对 瓜子 脸 而 言 ， 
这 两 个 子 块 将 不 确定 地 包括 以 外 的 区 域 ， 影 响 规则 的 制订 。 

2) 器 官 相 对 面积 的 影响 : 大 眼睛 小 嘴巴 与 小 眼睛 大 嘴巴 、 瞪 眼 发 怒 与 开口 大 笑 的 块 统 
计量 分 布 差别 很 大 ， 头 部 俯仰 对 鼻子 形状 有 很 大 的 影响 ， 进 而 造成 块 统计 量 的 大 范围 波动 。 

3) 面部 轮廓 不 稳定 性 的 影响 : 脸 部 的 上 边缘 受 发 型 影响 很 大 ， 两 侧 的 边缘 随 扭 脸 角 度 
和 背景 高 亮度 的 不 同 而 变化 ， 而 下 颌 的 边缘 由 于 与 须 部 相连 ， 通 常 难于 检测 。 

4) 光照 的 影响 : 侧 光 影响 灰 度 分 布 对 称 性 ， 并 产生 阴影 边缘 ， 影 响 马赛 克 上 的 梯度 分 
布 。 瞳 光 导 致 对 比 度 过 低 ， 影 响 梯度 和 灰 度 计算 的 有 效 程度 。 

5) 各 种 眼镜 的 影响 。 

基于 水 平方 向 梯度 强度 的 普遍 性 较 好 的 一 些 规 则 见 表 5-1。 其 中 , D (i) 表示 块 i 的 平 
均 梯 度 。 































































































表 5-1 一 些 普 遍 性 比较 好 的 规则 












































序号 Ho m** 说 明 

D(0) » D(1,3) TRO 的 梯度 大 于 子 块 1、3 的 梯度 

1 D(2) » D(1,5) 子 块 2 的 梯度 大 于 子 块 1、5 的 梯度 
D(7) >D(3,5) 子 块 7 的 梯度 大 于 子 块 3、5 的 梯度 

2 D(0+2+7) >0.5D(0 ~5 +7) Ps incu cc Nd UM 
D(0) ~D(2) 

3 D(3) =D(5) 梯度 对 称 性 
D(6) ~D(8) 











事实 上 ， 由 于 规则 库 不 参与 前 面 图 像 处 理 的 过 程 ， 有 很 强 的 独立 性 ， 因 此 可 以 有 针对 性 
地 对 具体 应 用 环境 和 图 像 质 量 建立 专门 的 规则 库 ; 此 外 ， 可 把 更 加 细致 的 器 官 验证 规则 引入 
到 这 一 环节 ， 从 而 提高 检测 的 准确 度 。 


5.1.4 基于 特征 的 人 脸 检 测 


基于 特征 的 人 脸 检 测 方法 将 人 脸 视 为 显著 器 官 的 组 合 ， 通 过 不 同 的 方法 ， 检 测 出 不 同 的 
人 脸面 部 特征 的 位 置 ， 然 后 根据 它们 之 间 的 空间 几何 关系 来 定位 人 脸 ; 或 者 根据 人 脸 所 固有 
的 不 变 的 特性 ， 如 轮廓 规则 、 肤 色 、 纹 理 规 则 等 ， 通 过 检测 是 否 满足 这 些 规 则 来 检测 、 定 位 
人 脸 。 这 一 类 方法 主要 有 基于 肤色 的 人 脸 检 测 〈 包 括 多 个 彩色 空间 ) 、 基 于 局 部 特征 的 人 脸 
检测 、 基 于 多 个 特征 综合 的 人 脸 检 测 方法 等 。 

用 AdaBoost 学 习 算 法 的 简单 特征 训练 级 联 人 脸 检 测 噩 方法 由 Viola 等 人 于 2001 年 提出 。 
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该 方法 采用 一 种 称 为 “积分 图 像 ” 的 图 像 表 示 方 法 ， 这 种 表示 方法 能 够 快速 计算 出 检测 器 
用 到 的 特征 。 利 用 基于 AdaBoost 学 习 算法 ， 从 一 个 较 大 的 特征 集中 选择 少量 的 关键 的 特征 ， 
产生 一 个 高 效 的 分 类 器 。 再 用 级 联 的 方式 将 单个 的 分 类 器 合成 为 一 个 更 加 复杂 的 分 类 器 ， 使 
图 像 的 背景 区 域 快 速 地 丢弃 ， 而 在 有 可 能 存在 目标 (人 脸 ) 的 区 域 花费 更 多 的 计算 ， 级 联 
分 类 器 在 人 脸 检 测 方面 速度 快 且 性 能 与 Rowley 的 人 工 神经 网 络 CANN) 方法 基本 相同 。 该 
方法 的 突出 地 位 和 贡献 在 于 ， 它 给 出 了 一 个 稳定 的 、 实 时 的 目标 检测 框架 ， 是 第 一 个 实时 的 
人 脸 检 测算 法 。 

人 脸 特 征 是 进行 人 脸 检 测 的 重要 依据 。 和 单个 的 像素 比较 ， 用 特征 进行 检测 有 很 多 原 
因 ， 其 中 的 一 个 原因 是 特征 本 身 就 包含 了 部 分 局 部 信息 ， 而 这 些 局 部 信息 知识 是 很 难 通过 有 
限 的 训练 数据 得 到 的 。 采 用 人 脸 特 征 而 不 是 单个 像素 的 另外 一 个 好 处 就 是 ， 基 于 特征 的 检测 
要 比 基 于 像素 的 检测 快 得 多 。 因 此 ， 算 法 采用 了 一 组 类 似 于 哈 尔 小 波 变换 的 滤波 器 来 计算 图 
像 的 特征 值 ， 如 图 5-6 所 示 。 
























































到 5-6 和 矩形 特征 及 其 匹配 
a) 24 x24 像素 子 窗 口内 选 出 的 矩形 特征 b) 子 窗口 检测 到 的 与 矩形 特征 的 匹配 

脸 部 一 些 特征 能 够 由 抢 形 特征 简单 地 描绘 ， 例 如 通常 眼睛 要 比 脸 颊 颜色 更 深 ; 鼻梁 两 侧 
Epp AR BR; 嘴巴 要 比 周围 颜色 更 深 。 对 于 一 个 24 x24 检测 器 ， 其 内 的 矩形 特征 数 
量 超过 160000 个 ， 必 须 通 过 特定 算法 可 选 适合 的 矩形 特征 ， 并 将 其 组 合成 强 分 类 屁 才 能 检 
测 人 脸 。 

我 们 将 使 用 简单 矩形 组 合作 为 特征 模板 。 和 矩形 特征 对 一 些 简 单 的 图 形 结构 ( 比如 边缘 、 
线段 ) 比较 敏感 ， 但 是 其 只 能 描述 特定 走向 〈 水 平 、 垂 直 、 对 角 ) 的 结构 ， 因 此 比较 粗略 。 
这 类 特征 模板 都 是 由 两 个 或 多 个 全 等 的 和 矩形 相 邻 组 合 而 成 ， 特 征 模 板 内 有 白色 和 黑色 两 种 矩 
JE (定义 左上 和 角 为 白色 ,然后 黑白 两 色 依次 交错 ) ， 并 将 此 特征 模板 的 特征 值 定义 为 白色 拢 
形 像素 之 和 减 去 黑色 矩形 像素 之 和 。 

最 简单 的 5 个 特征 模板 如 图 5-7 所 示 。 

图 中 包括 三 种 特征 : 双 和 矩形 特征 (Two-rectangle Feature) 、 三 矩形 特征 ( Three-rectangle 
Feature) 和 四 矩形 特征 (Four-rectangle Feature) ， 分 别 对 应 图 中 的 A、B、C、D 和 了 下。 其 
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中 ， 双 和 矩形 特征 定义 为 图 中 相 邻 两 个 矩形 内 像素 颜色 之 和 的 差 。 三 矩形 特征 定义 为 两 边 的 两 
个 矩形 减 去 中 间 的 矩形 中 像素 的 颜色 之 和 的 差 。 四 矩形 特征 定义 为 对 角 线 上 矩形 内 像素 颜色 
之 和 的 差 。 


E 日 | | Hj 
a) b) 


c) 








图 5-7 特征 模板 
a) A, B 为 边缘 特征 或 双 和 矩形 特征 模板 b) C、D 为 线 特性 或 三 矩形 特征 模板 c). E 为 特定 方向 特征 或 四 矩形 特征 模板 

为 了 快速 地 在 不 同 尺 度 下 计算 图 像 的 特征 ， 算 法 引入 了 积分 图 (Integralimage) 的 概念 ， 
如 图 5-8 所 示 。 

职 分 图 中 的 每 个 点 (x, y) 的 值 为 图 像 中 (x, y) 点 左 
上 部 分 所 有 像素 点 的 累加 : 

iü (x, y) = Dy: i (x', y!) (5-13) 

一 旦 计算 出 图 像 所 对 应 的 积分 图 ， 在 任意 尺度 上 的 图 像 
特征 就 能 在 恒定 时 间 内 计算 出 来 。 如 图 5-8 所 示 , 在 1、2、 
3、4 处 点 的 积分 图 的 值 分 别 为 A、A+B、A+B+C、A+B+ 





















































C+D， 而 D 的 矩形 特征 可 以 通过 4+1 - (2+3) 计算 出 来 ， 图 58 积分 图 

归纳 起 来 就 有 如 下 公式 计算 任意 尺度 下 的 图 像 特 征 : 
s (x, y) =s (x, y -1) +i (x, y) (5-14) 
iü (x, y) =u (x-1, y) +s (x, y) (5-15) 


式 中 , d (x, y) 为 积分 图 中 (x, y) AWE; s (x, y) WERP (x, y) 点 以 下 列 
向 量 上 的 颜色 值 之 和 ; i (x, y) 为 (x, y) 点 的 像素 值 。 这 样 ， 只 要 对 输入 图 像 遍历 一 次 ， 
就 可 以 得 到 积分 图 ， 就 可 以 在 恒定 时 间 内 得 到 任意 尺度 下 的 图 像 的 特征 。 

算法 假设 只 要 用 少数 的 一 些 特征 就 能 构建 一 个 较 好 的 分 类 器 。 为 了 做 到 这 一 点 ， 算 法 对 
Adaboost 方法 略 作 改进 ， 规 定 每 个 弱 学 习 机 上 内 允许 基于 一 个 特征 ， 这 样 在 筛选 弱 学 习 机 的 同 
时 ， 实 际 上 也 就 完成 了 对 特征 的 选择 。 在 训练 的 每 一 步 中 ， 对 各 种 特征 的 分 类 结果 进行 测 
试 。 选 出 错误 率 最 低 的 一 个 加 入 到 最 终 系统 中 。 

算法 通过 选择 最 能 区 分 正 样本 和 负 样 本 的 矩形 特征 。 对 每 一 个 特征 ， 弱 分 类 器 去 定 一 个 
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RRIK PAY LEG, EHI AS FETE, Ta ( h(x)) 因此 就 包 
FRES, PALE 0, MUP dil AEST ID p: 
h, (x) -| i p; f, (x) <p, 

0 HA 
AP, x 为 图 像 中 的 24 x24 像素 的 子 窗 口 。 这 样 得 到 的 是 单个 的 弱 分 类 器 ， 为 了 取得 可 信 
度 较 高 的 强 分 类 器 ， 采 用 了 AdaBoost 学 习 算法 将 多 个 弱 分 类 器 组 合生 成 一 个 强 分 类 器 ， 有 具 
体 学 习 算 法 如 下 : 

W OG, Y). e. CGY) 为 输入 图 像 ， 其 中 Y=0，1 用 来 标记 是 负 样 本 还 是 正 样本 。 

1) 初始 化 权 值 w,、7=14 (2m), 1/ (21) 分 别 对 应 正 样本 (=1) MREŽA (Y= 
0). 


(5-16) 











2) 对 t=1, =, T 
CRAB, w<- — , (E43 w, 为 一 概率 分 布 。 
>, wj 


DH — MRES, MANIRA hu, ERA KA AAI AREETA. A 


的 误差 为 £j = »3 w, | h, (x) -y,l o 
(3 选择 具有 最 小 分 类 误差 的 分 类 器 。 
@ 更 新 权 值 wy， = wj;B:“， 其 中 如 果 X 被 正确 地 分 类 ，e; = 0， 否则 e; =1, B = 
(l-e,) /to 
最 终 的 强 分 类 器 是 


T T 
1 
1 ne 
h(x) = 2 uper y Rod. (5-17) 
0 HR 











AH, a, =lg (1/B,)。 

在 前 面 举 出 的 图 5-6 H, E a WAIE, Alb 的 左 图 为 一 幅 被 测 图 ， 中 、 右 图 
分 别 为 将 滤波 器 放 在 典型 的 目标 区 域 的 情况 。 从 实验 结果 来 看 ， 检 测 咒 显然 分 别 利用 了 眼 部 
区 域 亮 度 低 于 脸 舌 和 双眼 亮度 低 于 丑 心 的 特点 。 


5.2. AJ RR Em 


人 脸 跟 踪 是 在 视频 或 图 像 序 列 中 确定 某 个 人 脸 的 运动 轨迹 及 大 小 变化 的 过 程 , 它 是 进行 
动态 人 脸 信 息 处 理 的 第 一 个 环节 , 在 视频 会 议 、 可 视 电 话 、 视 频 监 控 、 人 机 智能 交互 等 方面 
都 有 着 重要 的 应 用 价值 。 


5.2.1 (nessa 


在 实际 场景 中 ， 人 物 一 直 保持 不 动 的 可 能 性 是 微乎其微 的 ， 因 此 运动 信息 的 利用 是 把 人 
脸 从 复杂 背景 下 分 离 出 来 的 一 种 快速 有 效 途 径 。 
考虑 摄像 机 输入 的 一 个 图 像 序列 。 假 定 在 图 像 中 要 检测 的 人 物 处 于 运动 状态 ， 而 背景 则 
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保持 不 变 ， 那 么 通过 相 邻 两 帧 图 像 进行 差分 运算 ， 可 以 舍弃 图 像 中 保持 不 变 的 部 分 ， 保 留 发 
生变 化 的 部 分 。 这 样 做 可 以 有 将 地 保留 人 脸 的 候补 区 域 ， 去 除 大 部 分 的 背景 区 域 ， 尤 其 是 那 
些 颜 色 和 人 类 的 肤色 相同 或 相近 的 背景 区 域 (类 上 脸 区 )。 

帧 差 法 的 具体 处 理 过 程 如 下 : 将 相 邻 两 帧 图 像 〈 分 别 为 雪 Alt, PZ) 中 各 相应 像素 点 
的 RGB 值 按 下 式 进 行 差分 求 和 运算 : 

m-lr,-rl *lg,-gl +1 6,-6, | (5-18) 

式 中 , n.n. bi n. e. b, 分 别 是 当前 图 像 和 与 之 相 邻 的 上 一 帧 图 像 中 待 处 理 当前 像素 
点 的 RGB 值 。 为 了 得 到 图 像 中 发 生变 化 的 区 域 ， 把 当前 像素 的 到 值 和 预先 给 定 的 国 值 大 进 
行 比较 ， 当 m >k 时， 则 认为 该 像素 点 属于 变化 的 区 域 ， 给 予 保留 ; RZ, 4msk it, W 
认为 该 像素 属于 未 变化 的 区 域 ， 将 其 去 除 。 

利用 帧 差 法 结合 其 他 的 如 肤色 等 算法 可 以 达到 较 好 的 人 脸 检 测 效果 。 


5.2.2 ”基于 运动 目标 预测 的 人 脸 跟踪 


运动 预测 即 根据 前 一 帧 得 到 的 结果 ， 通 过 预测 得 到 当前 帧 目标 可 能 存在 的 区 域 ( Region 
Of Interest, ROI), f£ ROI 内 搜寻 这 一 帧 目标 的 位 置 大 小 。ROI 在 搜寻 的 过 程 中 可 能 延伸 ， 
搜寻 的 结果 又 反馈 回来 进一步 改善 预测 的 模型 。 预 测 既 包括 速度 、 加 速度 等 运动 状态 的 预 
测 ， 也 包括 概率 的 预测 。 卡 尔 曼 (Kalman). 滤波 器 是 最 常用 的 预测 方法 。 它 是 用 于 包含 随 
机 扰动 的 动态 系统 的 最 优 状态 估计 过 程 。 下 面 介 绍 一 下 卡尔 曼 滤 波 。 
卡尔 曼 滤波 器 通常 用 于 线性 运动 模型 和 高 斯 分 布 预测 模型 。 
X, =A,%,_) +W, (5-19) 
z, =H, +0, (5-20) 
式 中 ， X, 为 状态 量 ; Zh 为 观测 量 ; A, 为 运动 矩阵 ; H, 为 观测 矩阵; w, 和 v, 为 满足 高 斯 分 
布 的 随机 噪声 。 



































































































































p (w) ~N (0, Q) (5-21) 
p (v) ~N (0, R) (5-22) 
运动 预测 的 步骤 如 下 : 
预测 
xp = A,X), (5-23) 
P; =A,P,_,A; +Q, (5-24) 
修正 : 
K, =P, H; (H,P,H, +R,) ! (5-25) 
x, =x, +K, (x, -Hx ) (5-26) 
P,- (I-K,H,) P; (5-27) 


RP, ag. x, 表示 修正 之 前 的 先 验 状态 和 修正 之 后 的 后 验 状态 ; Py A P, 表示 相应 的 协 方差 
AREE; Kon FAR EE ARS AQ. HL. Q,. R, 参数 在 运动 预测 的 过 程 中 可 能 进行 修改 。 利 用 
卡尔 曼 滤 波 就 能 预测 人 脸 在 相 邻 帧 间 的 运动 趋势 了 。 


5.2.3 基于 模型 的 人 脸 跟踪 
基于 模型 的 人 脸 跟 踩 的 方法 就 是 获取 目标 的 先 验 知识 ， 建 立 低 价 参数 模型 ， 对 输入 的 每 
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帧 图 像 通过 滑动 窗口 进行 模型 匹配 ， 实 现 人 脸 识别 与 跟踪 。 常 见 的 跟踪 模型 有 肤色 模型 、 
椭圆 模型 、 纹 理 模 型 及 双眼 模板 匹配 模型 、 可 变形 模型 等 。 

1. 基于 肤色 模型 的 人 脸 跟 踪 

肤色 是 人 脸 最 重要 而 且 明 显 的 特征 ， 人 脸面 部 肤色 特征 可 以 用 几 个 简单 的 参数 来 表征 ， 
而 且 在 一 定 光照 条 件 下 肤色 特征 基本 保持 不 变 。 基 于 肤色 模型 的 跟踪 方法 就 是 利用 恰当 的 表 
色 系 统 ， 把 肤色 作为 实现 人 脸 跟 踪 的 关键 信息 。 由 于 肤色 信息 具有 对 放大 和 缩小 以 及 对 微小 
变形 不 敏感 的 优点 ， 加 上 人 脸 相 对 镜头 的 变化 对 肤色 信息 本 身 的 影响 不 大 ， 该 类 方法 很 容易 
在 前 一 帧 图 像 分 析 结 果 的 基础 上 跟踪 到 后 一 帧 图 像 的 人 脸 区 域 ， 因 此 具有 速度 快 、 姿 态 不 变 
性 等 特点 。 目 前 的 人 脸 跟 踪 技 术 大 都 采用 基于 肤色 模型 的 方法 。 

Yang 等 人 以 半 基 色 空 间 内 人 脸 部 肤色 分 布 的 特殊 性 为 基础 ， 实 现 了 人 脸 实 时 跟踪 。 
Crowley 等 人 结合 肤色 模型 、 人 了 眼 检 测 模型 和 相关 匹配 方法 实现 了 人 脸 实 时 跟踪 ” 。 上 述 两 
个 系统 不 能 正确 处 理 多 目标 背景 下 目标 遮挡 时 的 跟踪 问题 ， 只 能 适用 于 不 带 迟 挡 的 比较 简单 
的 场合 。Wu Haisheng 和 Zelek 提出 了 一 种 实时 统计 人 脸 检 测 与 跟踪 系统 。 该 系统 采用 基于 
人 脸 目 标 捕获 及 粒子 滤波 技术 的 单眼 视觉 。 首 先 ， 人 脸 目 标 捕获 和 系统 初始 化 阶段 使 用 肤色 
分 类 和 统计 人 脸 模型 匹配 来 找到 人 脸 目 标 。 然 后 ， 利 用 粒子 滤波 技术 跟踪 人 脸 运动 的 状态 空 
间 。 最 后 ， 根 据 光 流 信 息 得 到 运动 信息 ， 从 而 进行 样本 重 划 分 。 该 系统 较 好 地 解决 了 人 脸 跟 
踪 的 实时 性 。 

参考 文献 [29 ] 在 人 脸 肤 色 模 型 的 基础 上 ， 利 用 人 脸形 状 特 征 信 息 ， 并 结合 扩展 卡尔 曼 
滤波 技术 估计 人 脸 的 运动 轨迹 ， 提 出 了 一 种 基于 肤色 的 人 脸 实 时 跟踪 方法 。 该 方法 用 半 基 色 
空间 表征 肤色 ， 利 用 在 不 同 环境 条 件 下 人 脸 肤 色 分 布 均 近 似 服从 高 斯 分 布 这 一 特性 建立 肤色 
特征 参数 模型 ， 从 而 有 效 地 保证 了 复杂 场景 下 目标 跟踪 的 准确 性 ， 实 现 了 带 遮 挡 情 况 下 的 人 
脸 实时 跟踪 。 

参考 文献 [30] 提 出 一 种 基于 混合 肤色 模型 的 实时 人 脸 跟 踪 方法 。 该 方法 的 混合 肤色 模 
型 和 建立 在 单一 色彩 空间 上 的 肤色 模型 不 同 ， 它 将 HSV 中 的 再 分量 和 YCbCr 中 的 Cb, Cr 
分 量 分 别 用 一 维 的 高 斯 模型 表示 ， 组 合成 三 维 的 肤色 模型 。 而 且 该 方法 采用 基于 点 的 运动 预 
测 来 减少 搜索 区 域 ， 并 使 用 Mjseg 算法 进一步 分 离 人 脸 和 其 他 类 肤色 区 域 。JSEG (Joint Sys- 
tem Engineering Group) 是 一 种 彩色 图 像 的 分 隔 算法 ，MJSEGC ( Modified JSEG Algorithm) 是 
参考 文献 [30] 提 出 的 JSEG 的 改进 算法 。 基 于 点 的 运动 预测 没有 使 用 确定 的 运动 方程 来 描述 
可 能 的 运动 形式 ， 而 是 通过 点 的 高 斯 振荡 、 帧 间 差 和 Tophat 算 子 估计 当前 帧 中 人 脸 可 能 的 
位 置 ， 解决 了 其 他 方法 中 运动 预测 算法 的 不 足 问 题 ，MJSEG 算法 给 出 较为 精确 的 人 脸 边 界 ， 
提高 了 用 于 更 新 肤色 模型 的 肤色 点 的 可 信和 度 。 该 方法 有 效 地 解决 了 复杂 背景 下 人 脸 自 由 运 
动 、 光 照 变化 及 部 分 遗 挡 的 问题 。 系 统 跟踪 速度 达到 实时 ， 并 给 出 精确 的 人 脸 边 界 。 

参考 文献 [31] 提 出 了 一 种 彩色 图 像 序列 中 的 人 脸 跟踪 方法 。 该 方法 结合 利用 人 脸 肤 色 
模型 和 运动 模型 实现 人 脸 跟 踪 。 其 肤色 模型 没有 使 用 被 广泛 采用 的 RGB 模型 ， 而 是 将 图 像 
的 RGB 空间 变换 到 色 度 空间 (因为 用 色 度 表示 人 脸 的 特征 具有 姿态 不 变性 的 优点 ) ， 然 后 
利用 最 大 能 量 坐 标 和 和 矩 来 表征 色 度 空间 的 直方 图 分 布 。 

参考 文献 [16] 提 出 了 一 种 基于 高 斯 肤色 模型 的 人 脸 跟踪 算法 。 由 于 肤色 在 彩色 的 颜色 
空间 中 集中 在 一 个 很 小 的 区 域 ， 该 算法 利用 肤色 的 这 些 分 布 性 质 建立 肤色 模型 ， 然 后 把 人 脸 
肤色 区 域 中 各 个 像素 从 RGB 彩色 空间 投影 到 彩色 的 颜色 空间 ， 利 用 在 彩色 的 颜色 空间 建立 
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高 斯 肤色 模型 ， 把 肤色 从 图 像 中 分 割 出 来 ， 从 而 达到 跟踪 的 目的 。 在 跟踪 过 程 中 ， 还 增加 了 
自 适 应 学 习 模 块 ， 使 得 原始 的 肤色 模型 能 够 在 不 同 光照 条 件 下 实现 自 适应 调整 。 实 验 表明 ， 
该 算法 能 够 在 自然 光照 条 件 下 取得 较为 满意 的 跟踪 结果 ， 同 时 对 人 脸 在 旋转 、 缩 放 、 遮 挡 等 
条 件 下 ， 多 人 脸 背 景 下 的 跟踪 有 较 强 的 鲁 棒 性 。 

由 于 人 脸 肤 色 在 常用 的 RGB 表 色 系统 中 的 分 布 比较 分 散 ， 而 在 HSI 表 色 系统 中 较为 集 
中 ， 参 考 文献 [17] 利 用 这 一 特点 实现 了 人 脸 跟踪 。 该 算法 在 HSI 表 色 系统 下 ， 把 彩色 直方 
图 作为 人 脸 模 型 ， 通 过 将 彩色 直方 图 投影 到 下 一 帧 图 像 ， 就 很 容易 获取 该 帧 图 像 的 同一 人 脸 
区 域 。 实 验 表 明 ， 在 普通 环境 和 光照 条 件 下 ， 这 里 所 采用 的 算法 能 实时 、 有 效 地 跟踪 图 像 序 
列 中 的 人 脸 ， 达 到 了 使 用 的 要 求 。 

2. 基于 椭圆 模型 的 人 脸 跟 踪 

由 于 绝 大 部 分 人 脸 轮 廓 都 近似 为 椭圆 形状 ， 很 多 研究 人 员 就 利用 这 一 特征 建立 椭圆 模型 
来 实现 人 脸 识 别 与 跟踪 。 参 考 文献 [16] 中 提出 的 算法 采用 肤色 模型 和 椭圆 环 模板 相 结 合 进 
行人 脸 跟踪 。 该 算法 在 实现 人 脸 跟 踪 过 程 中 ， 首 先 利 用 肤色 模型 定位 人 脸 肤 色 区 域 ; 然后 利 
用 人 脸形 状 近似 为 椭圆 形状 的 先 验 知识 ， 通 过 建立 椭圆 环 模板 对 人 脸 边 缘 进 行 精确 定位 ; 最 
后 根据 得 到 的 面部 特征 和 人 脸 边缘 位 置 估计 出 人 脸 的 姿态 。 该 算法 的 思想 是 想 用 一 个 椭圆 环 
模板 在 人 脸 的 候选 区 域内 进行 搜索 ， 使 该 环 尽量 包含 最 多 的 人 脸 边 缘 点 。 这 里 边缘 点 就 是 和 
非 肤色 区 域 相 邻 的 肤色 像素 ， 也 就 是 肤色 连通 域 的 边缘 点 。 对 人 脸 的 跟踪 过 程 就 是 确定 这 个 
椭圆 环 模板 ， 使 该 区 域内 的 人 脸 边缘 点 最 多 。 实 验 表 明 ， 该 算法 能 够 在 自然 光照 条 件 下 取得 
较为 满意 的 跟踪 结果 ， 同 时 对 人 脸 在 旋转 、 缩 放 、 谈 挡 等 条 件 下 ， 多 人 脸 背 景 下 的 跟踪 有 较 
PRAISE PEPE s 

3. 基于 纹理 模型 的 人 脸 跟踪 

宋 刚 等 人 提出 了 在 视频 序列 中 跟踪 人 脸 的 一 种 混合 模型 方法 2 a ATE N 
(Bayesian) 框架 下 将 Lucas-Kanade 光 流 跟踪 算法 与 人 脸 特 征 点 定位 的 统计 模型 直接 表 观 
模型 (Direct Appearance Model, DAM)'| 结 合 起 来 ， 建 立 一 种 混合 模型 。 由 于 视频 序列 中 连 
续 帧 间 具 有 运动 连续 性 ， 该 算法 利用 Lucas-Kanade 特征 点 跟踪 算法 预测 人 脸 特 征 点 的 位 置 。 
而 DAM 表明 纹理 和 形状 之 间 存 在 着 很 强 的 相关 性 ， 将 DAM 作为 全 局 的 纹理 约束 ， 以 纠正 
局 部 匹配 的 误差 ， 用 于 定位 人 脸 特征 点 。 通 过 DAM 中 纹理 对 形状 的 约束 ， 在 提高 跟踪 精度 
的 同时 ， 增 强 了 整个 算法 的 鲁 棒 性 。 实 验 表明 ， 这 种 方法 可 以 很 好 地 适应 人 脸 的 多 种 运动 ， 
可 用 于 人 脸 识别 与 跟踪 或 三 维 人 脸 建 模 。 

4. 基于 双眼 模板 匹配 模型 的 人 脸 跟 踪 

由 于 人 的 脸 部 双眼 外 形 的 独特 性 ， 使 得 双眼 模板 在 人 脸 识 别 与 跟踪 中 倍 受 欢迎 。 参 考 文 
献 [18] 提 出 了 一 种 基于 双眼 模板 匹配 与 人 工 神 经 网 络 的 人 脸 跟 踪 。 该 算法 在 对 前 一 帧 图 像 
进行 人 脸 区 域 检 测 的 基础 上 ， 预 测 当 前 帧 中 人 脸 区 域 可 能 的 尺度 与 位 置 范围 ， 在 预测 的 范围 
内 ,采用 双眼 模板 匹配 与 人 工 神经 网 分 类 的 方法 跟踪 人 脸 。 在 搜索 输入 图 像 中 可 能 尺度 和 位 
置 的 矩形 区 域 时 ， 对 每 个 候选 窗口 使 用 双眼 模板 匹配 进行 粗 筛 选 。 跟 踪 时 引入 “监视 区 域 ” 
的 概念 ， 使 用 前 一 帧 的 跟踪 结果 ， 根 据 实际 应 用 的 需求 限定 人 脸 在 两 帧 间 的 最 大 变化 ， 进 一 
步 求 解 新 的 监视 区 域 。 这 样 处 理 时 ， 速 度 会 受到 一 些 影响 ， 但 能 够 保证 跟踪 的 鲁 棒 性 。 实 验 
表明 ， 该 方法 在 具有 复杂 、 动 态 变化 背景 的 图 像 序列 中 是 很 有 效 的 。 

5. 基于 可 变形 模型 的 人 脸 跟 踪 
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Goldenstein 和 Vogler 等 人 利用 可 变形 模型 和 预测 滤波 器 实现 在 劣质 图 像 序列 中 跟踪 三 维 
人 脸 。 他 们 使 用 可 变形 模型 结合 预测 滤波 器 的 方法 ， 对 描述 随时 间 变化 的 脸 部 表情 演变 
的 参数 值 和 形变 进行 恢复 。 为 了 增加 系统 的 鲁 棒 性 ， 预 测 滤波 器 必须 仔细 观测 系统 状态 。 他 
们 采用 一 种 新 方法 ， 在 每 个 时 刻 测量 高 维 可 变 模型 的 参数 观测 值 的 正确 分 布 。 该 方法 将 二 维 
图 像 偏 移 的 置信 区 域 限制 在 放射 体内 ， 并 将 它们 传播 到 参数 空间 。 实 验 表明 ， 该 方法 对 在 降 
质 图 像 序列 中 提取 信息 有 很 好 的 鲁 棒 性 。 

总 之 ， 基 于 模型 的 方法 跟踪 速度 快 ， 但 受 模型 本 身 的 限制 ， 一 旦 跟踪 环境 发 生变 化 ， 难 
以 得 到 较 好 的 处 理 结果 。 


5.2.4 基于 人 脸 局 部 特征 的 人 脸 跟踪 


基于 人 脸 局 部 特征 跟踪 法 的 主要 思想 是 根据 不 同 的 人 脸 器 官 特征 信息 进行 器 官 跟 踪 ， 这 
类 方法 经 常 利 用 眼睛 、 嘴 鼻子 等 器 官 特征 信息 进行 跟 踊 定位。 传统 的 人 脸 特 征 点 跟踪 方法 
通常 是 在 人 的 脸 部 画 上 标识 点 进行 跟踪 。 如 : Kouadio 等 人 提出 了 一 种 通过 加 标识 点 来 跟踪 
视频 中 人 脸 特 征 点 的 方法 。 

1. 基于 KLT 算法 的 人 脸 特征 点 跟踪 

KLT 算法 是 一 种 以 待 跟 踪 窗 口 W 在 视频 图 像 帧 间 的 误差 二 次 方 和 (Sum of Squared 
Differences, SSD) 作为 度量 的 跟踪 算法 。 

参考 文献 [ 19 ] 给 出 了 一 种 在 首 帧 中 确定 搜索 特征 点 ， 采 用 改进 的 KLT (Kanade, Lucas, 
Tomasi) 算法 对 未 加 标识 点 的 人 脸 正 面 视频 图 像 进行 特征 点 跟踪 ， 进 而 求 得 人 脸 特 征 点 运动 
参数 的 方法 。 与 传统 的 在 人 脸 部 画 上 标识 点 的 特征 点 跟踪 方法 不 同 ，KLT 算法 可 以 从 未 加 标 
识 点 的 正面 人 像 视频 系列 中 通过 特征 纹理 信息 直接 获取 脸 部 某 些 特征 点 的 位 移 ， 该 文献 还 在 
KLT 算法 中 加 入 了 基于 人 上 脸 统计 信息 的 经 验 约束 ， 使 KLT 算法 更 加 合理 有 效 。 

2. 人 脸 特 征 点 跟踪 

Kouadio 等 提出 了 一 种 通过 加 标识 点 来 跟踪 视频 中 人 脸 特 征 点 的 方法 ， 这 些 特征 点 跟踪 
方法 的 局 限 是 要 在 被 摄像 者 人 脸 部 加 上 标识 点 ， 如 果 能 够 从 未 加 标识 点 的 正面 人 像 视 频 系 列 
中 直接 获取 面部 某 些 特征 点 的 位 移 ， 将 会 更 有 意义 。 

Jebara 和 Pentlan ^ 也 使 用 特征 点 跟踪 ， 但 是 他 们 使 用 自动 定位 如 眼 部 和 嘴角 来 跟踪 人 
脸 ， 用 运动 技术 对 特征 点 的 三 维 位置 进 行 估 计 ， 即 在 图 像 序列 中 用 扩展 的 卡尔 曼 滤 波 后 获取 
所 有 的 位 置信 息 。 对 于 面部 特征 点 的 位 置 的 估计 ， 使 用 本 征 脸 的 约束 方法 去 匹配 人 脸 几 何 特 
征 。 





























































































































































































































参考 文献 [20 ] 提出 一 种 基于 Gabor 小 波 的 人 脸 特 征 点 跟踪 方法 。 该 文献 将 Gabor Jets 用 
于 跟踪 视频 中 的 人 脸 特 征 点 (其 中 Jets 是 指 对 图 像 上 某 点 进行 不 同方 向 、 频 率 、 相 位 的 小 
波 卷 积 所 产生 的 一 系列 小 波 系数 ) 。 在 输入 视频 序列 的 起 始 帧 中 ， 手 工 标定 需要 跟踪 的 人 脸 
特征 点 ， 如 有 眼角、 鼻尖 、 眉 毛 等 ， 提 取 这 些 点 的 Jets。 将 第 1 帧 的 特征 点 坐标 作为 第 i+1 帧 
的 参考 点 ， 提 取 第 1+1 帧 参考 点 的 Jets, ， 对 比 新 旧 Jets 来 估计 特征 点 的 新 坐标 ， 从 而 得 到 特 
征 点 在 新 帧 中 的 位 置 ， 达 到 跟踪 的 目的 。 

3. 基于 器 官 跟踪 的 人 脸 跟 踪 

JpUTAE A T 提出 了 一 种 基于 器 官 跟 踪 的 人 脸 跟 踪 算 法 ， 利 用 形态 学 运算 对 嘴 进 行 跟踪 ， 
并 在 很 少 的 局 部 旋转 运算 处 理 后 ， 简 单 地 分 析 人 脸 的 对 称 性 ， 从 而 高 速 准确 地 跟踪 人 脸 。 该 
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文献 提出 的 跟踪 算法 没有 利用 背景 、 运 动 和 颜色 等 信息 ， 因 而 不 受 背 景 复杂 程度 、 人 脸 运 动 
强度 和 背景 颜色 等 因素 的 影响 。 算 法 只 利用 灰 度 信息 ， 进 行 形态 运算 、 局 部 旋转 运算 ,计算 
简单 。 跟 踪 时 间 只 与 人 脸 尺 寸 有 关 ， 与 图 像 大 小 无 关 。 跟 踪 具 有 较 强 的 鲁 棒 性 ， 只 要 人 的 双 
眼 和 嘴 等 主要 器 官 可 见 ， 人 允许 人 脸 做 较 大 幅度 的 运动 。 算 法 可 广泛 应 用 于 可 视 电话 、 视 频 电 
视 会议 、 虚 拟 现实 等 领域 中 ， 实 现 视 频 序列 的 人 脸 位 置 跟踪 ， 并 可 在 保安 监控 、 层 语 识 读 、 
表情 识别 等 应 用 中 发 挥 作用 。 

在 这 些 方法 中 ， 特 征 点 会 由 于 遮挡 或 光线 变化 而 不 可 见 ， 这 将 导致 跟踪 失败 ， 这 是 特征 
点 跟踪 的 缺点 。 虽 然 可 以 得 到 新 的 特征 点 ， 但 这 要 以 额外 的 累加 误差 为 代价 。 
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456 5 面部 特征 提取 的 算法 





特征 就 是 用 来 表征 和 区 别 不 同事 物 的 ， 也 就 是 说 特征 是 为 了 识别 。 对 于 模式 识别 系统 ， 
为 了 达到 识别 的 目的 ， 选 取 的 一 些 描 述 方法 ， 称 之 为 特征 ， 这 些 特征 一 起 构成 了 特征 空间 ， 
随后 的 识别 工作 都 是 在 特征 空间 上 完成 的 。 这 里 由 于 识别 的 目的 不 同 ， 即 便 是 对 同一 事物 所 
定义 的 特征 也 不 同 ， 例 如 要 在 一 堆 苹 果 内 分 出 大 小 苹果 ， 那 么 特征 是 苹果 的 尺寸 ， 如 果 要 在 
这 堆 苹 果 中 区 分 出 成 熟 度 ， 那 么 特征 或 许 就 是 苹果 的 色泽 。 即 便 是 出 于 相同 的 识别 目的 ， 特 
征 的 选取 也 可 能 不 一 样 ， 例 如 下 面 要 讨论 的 人 脸 识别 系统 。 如 果 在 上 述 识 别 苹果 大 小 时 ， 选 
择 苹 果 的 颜色 特征 ， 那 么 最 终结 果 是 不 能 区 分 苹果 的 大 小 ， 可 见 特 征 的 选择 对 识别 结果 有 着 
重要 的 影响 。 一 般 情 况 下 ， 为 了 达到 识别 目的 ， 对 于 特征 的 选择 是 一 个 复杂 的 过 程 ， 不 能 简 
单 地 通过 一 个 特征 来 区 分 ， 再 例如 要 区 分 苹果 的 成 熟 度 ， 如 果 仅 仅 依靠 苹果 的 色泽 ， 那 么 对 
于 一 些 品种 ， 即 便 是 绿色 的 苹果 ， 但 是 它 也 是 成 熟 的 ， 至 此 或 许 应 该 综合 考虑 其 他 因素 ， 例 
如 尺寸 大 小 、 香 味 等 。 可 见 特征 选取 是 一 个 复杂 的 过 程 ， 并 且 它 的 选取 对 后 续 的 识别 结果 将 
产生 重大 影响 。 对 于 人 脸 或 表情 识别 来 说 ， 面 部 特征 的 选取 对 识别 结果 的 影响 也 是 同样 重要 
的 ， 因 此 本 章 主 要 介绍 面部 特征 提取 的 算法 。 


6.1 概述 
对 于 一 般 的 模式 识别 系统 ， 例 如 一 个 图 像 识 别 系统 ， 它 应 该 具有 图 6-1 所 示 的 系统 流 
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图 6-1 图 像 模 式 识 别 的 流程 











当前 图 像 获 取 的 方法 已 经 有 多 种 多 样 ， 完 全 可 满足 人 们 的 需要 ; 图 像 预 处 理 过 程 只 是 为 
特征 提取 服务 的 ， 有 些 系 统 甚 至 省 略 此 步骤 ;而 最 后 的 分 类 融 设 计 和 分 类 判别 算法 已 有 很 多 
种 ， 现 在 的 研究 多 是 集中 在 如 何 提高 分 类 速度 和 效率 的 ; 特征 提取 在 这 里 是 最 关键 的 一 个 环 
节 ， 如 果 没 有 对 特征 建 模 和 定义 ， 那 么 后 续 的 分 类 就 无 法 进行 ， 特 征 提 取 的 好 坏 对 识别 的 效 
果 有 重大 的 影响 。 

图 像 处 理 系 统 中 ， 特 征 的 提取 与 分 类 ， 即 把 以 像素 描述 的 图 像 数 据 转化 为 更 高 级 的 表 
述 ， 比 如 对 图 像 的 形状 、 和 运动、 颜色 、 纹 理 特征 或 空间 构造 的 描述 ;并且 要 尽 可 能 地 在 保证 
稳定 性 和 识别 率 的 前 提 下 ， 对 庞大 的 图 像 数据 进 行 降 维 处 理 。 目 前 主要 的 特征 提取 方法 有 : 
提取 几何 特征 、 统 计 特征 、 频 率 域 特征 和 运动 特征 等 。 
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这 里 所 述 人 脸 识 别 和 表情 识别 都 是 基于 计算 机 的 图 像 处 理 技术 的 ， 所 以 它们 的 识别 流程 
也 满足 图 6-1 的 要 求 ， 在 特征 提取 的 方法 中 ， 自 然 也 包括 几何 特征 、 统 计 特征 、 频 率 域 特 征 
和 运动 特征 等 几 类 。 由 于 研究 对 象 都 是 人 脸 图 像 ， 所 以 这 两 者 之 间 的 特征 提取 有 类 似 的 地 
方 ， 例 如 几何 特征 中 ， 人 脸 的 五 官位 置 都 很 重要 。 但 是 由 于 识别 的 目的 不 同 ， 两 者 的 特征 定 
义 和 提 取 方 法 上 也 是 有 差异 的 。 

按照 人 脸 特征 的 时 间 可 变性 ， 人 脸 特征 可 分 为 两 类 : 永久 性 脸 部 特征 和 暂时 性 脸 部 特 
征 。 永 久 性 脸 部 特征 是 永远 存在 脸 部 的 特征 。 它 们 能 够 随 着 脸 部 的 运动 发 生 形变 。 例 如 ， 眼 
睛 、 眼 由、 嘴 和 脸 部 的 某 些 皱纹 等 。 和 暂时 性 脸 部 特征 主要 包括 脸 部 暂时 性 皱纹 。 它 们 会 随 着 
脸 部 运动 而 出 现 。 它 们 不 是 永久 保持 在 脸 部 的 。 作 为 人 脸 识 别 来 说 ， 要 关注 的 是 固定 的 属于 
某 个 人 的 不 变 的 特征 ， 可 以 和 别人 的 人 脸 区 分 ， 注 重 的 是 不 同人 脸 的 个 体 差 异 〈 特 性 ) ， 面 
部 表情 作为 干扰 信号 存在 ， 对 于 同一 个 人 的 不 同 表情 信息 要 尽 可 能 地 屏蔽 ， 防 止 其 影响 识别 
的 效果 ; 而 表情 识别 是 忽略 个 体 差 异 ， 提 取 人 脸 在 不 同 表情 模式 下 的 差异 特征 ， 人 脸 个 体 差 
异 成 为 干扰 信号 。 这 是 人 脸 识 别 特征 和 表情 识别 特征 的 不 同 ， 但 是 在 提取 特征 的 方法 上 还 是 
差不多 一 样 的 。 

一 般 的 人 脸 识 别 系统 可 使 用 的 特征 通常 分 为 视觉 特征 、 像 素 统计 特征 、 人 脸 图 像 变换 系 
数 特征 、 人 脸 图 像 代数 特征 、 运 动 特征 。 

1) 视觉 特征 主要 就 是 肤色 特征 、 纹 理 特征 、 几 何 特征 。 

2) 像素 统计 特征 主要 有 灰 度 特征 。 由 于 人 脸 的 轮廓 近似 呈 椭 圆 ， 人 脸 的 五 官 分 布 具有 
对 称 性 ， 空 间 位 置 相 对 固定 ， 个 体 五 官 的 外 形 大 致 相同 ， 从 而 表现 为 灰 度 分 布 呈 现 一 定 规律 
性 ， 这 种 规律 反映 了 人 脸 的 内 在 特征 。 灰 度 特 征 通常 采用 统计 的 方法 或 特征 空间 变换 的 方法 
进行 提取 。 

3) 人 脸 图 像 变换 系数 特征 ， 如 依 里 叶 变 换 、Hough 变换 、Hadamard 变换 。 

4) 人 脸 图 像 代 数 特征 反映 的 是 图 像 的 一 种 内 在 属性 ， 将 图 像 作为 矩阵 看 待 ， 可 对 其 进 
行 各 种 代数 变换 ， 或 进行 各 种 矩阵 分 解 。 由 于 和 矩阵 的 特征 向 量 反映 的 是 一 种 代数 属性 ， 并 且 
具有 不 变性 ， 因 此 可 用 来 表征 图 像 特 征 。 不 变 矩 和 奇异 值 特征 是 两 种 常用 的 人 脸 图 像 代数 特 
征 ， 两 者 具有 平移 、 斥 度 和 旋转 不 变性 特征 ， 而 且 奇 异 值 特征 还 对 噪声 、 光 照 变化 引起 的 图 
像 灰 度 变化 具有 不 敏感 性 。 由 于 图 像 不 变 矩 和 奇异 值 反 映 的 是 整 幅 图 像 的 统计 特性 。 例 如 
SVD 的 特征 提取 人 脸 识 别 ， 效 果 不 是 很 好 ,但 是 识别 算法 比较 快 ， 可 以 在 线 识 别 。 

5) 运动 特征 是 指 视 频 序列 中 各 帧 图 像 中 人 脸 特 征 的 变化 。 

目前 的 研究 主要 集中 在 以 下 五 个 方面 : g 面 部 几何 特征 ，@) 统 计 特 征 ， 久 变换 域 中 的 面 
部 特征 ， 包 运动 特征 ， 包 代数 特征 ， 下 面 将 分 别 讨论 。 


6.2 几何 特征 的 提取 


上 面 已 经 提 到 ， 人 有 上 脸 的 几何 特征 既 可 以 用 来 进行 人 脸 识 别 ， 也 能 进行 表情 识别 。 参 考 文 
献 L34] 介 绍 了 周 激流 等 人 在 人 脸 识别 系统 中 的 人 脸 几 何 特征 提取 的 工作 。 他 们 手动 选取 了 
人 脸 部 图 像 上 25 个 特征 点 ， 包 括 眉毛 坐标 、 瞳 孔 中 心 位 置 等 ， 如 图 6-2 所 示 。 根 据 这 25 个 
坐标 值 ， 计 算出 13 个 特征 矢量 、 眉 眼 距 离 、 眼 鼻 距 等 作为 后 续 识 别 算 法 的 输入 值 。6. 1 节 
已 经 提 到 了 人 脸 识 别 和 表情 识别 由 于 识别 目的 的 不 同 ， 其 特征 提取 方法 也 有 差异 ， 所 以 下 面 
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重点 介绍 表情 识别 中 的 几何 特征 提取 方法 ， 其 基 
思想 是 利用 人 上 脸 的 结构 特征 和 先 验 知识 ， 通 过 
对 人 脸 表 情 的 显著 特征 ， 如 有 眼睛、 上 鼻子、 眉毛 、 
路 等 的 形状 和 位 置 变 化 进行 定位 和 测量 ， 确 定 其 
大 小 、 距 离 、 形 状 和 相互 比例 的 特征 关系 ， 进 行 
表情 识别 。 

基于 儿 何 特征 的 识别 方法 ,在 特征 的 提取 方 
式 上 ， 具 体 又 可 以 分 为 以 下 三 种 。 

1. 在 手动 的 预先 定义 一 组 特征 点 的 基础 上 ， 
进行 特征 点 运动 的 跟踪 

剑桥 大 学 的 Philipp Michel 采用 的 就 是 手工 标 
点 的 方法 ， 即 在 图 像 序列 的 第 一 帧 中 手动 定义 22 
个 面部 标定 点 〈 见 图 6-3 ) 。 对 于 每 个 表情 ， 计 算 
其 平静 和 有 表情 帧 之 间 的 位 移 ， 作 为 特征 进行 分 图 6-2 人 脸 的 25 个 特征 点 位 置 
类 器 的 训练 。 实 验 表 明 ， 手 工 标 点 提取 的 位 置信 息 分 类 准确 率 较 高 ， 而 且 训 练 和 分 类 的 延 时 
较 小 。 





















































图 6-3 ”图像 序列 中 面部 特征 的 手工 定位 与 跟踪 


2. 全 自动 提取 特征 点 

这 个 问题 与 人 脸 识 别 研究 中 人 脸 的 检测 与 定位 问题 有 许多 共同 性 。 由 于 人 脸 的 几何 结构 
固定 ， 所 以 全 自动 提取 特征 点 通常 要 依赖 于 面部 的 部 件 分 析 ， 通 过 应 用 一 些 先 验 知识 来 初步 
确定 表情 区 域 的 大 概 位 置 ， 然 后 再 精确 定位 各 个 特征 点 (如 瞳孔 、 嘴 角 ) 的 位 置 。 这 里 的 
表情 区 域 定位 通常 使 用 的 方法 有 积分 投影 方法 。 它 简便 易 行 ， 但 有 很 大 的 局 限 性 ， 一 般 只 是 
针对 简单 的 图 像 ， 要 求 正 立 、 正 面 、 光 照 均 匀 、 无 小 胡子 和 眼镜 等 饰物 。 其 他 还 有 hough 变 
换 方法 susan 角 点 检测 方法 ， 以 及 可 变形 模板 方法 、Snake 方法 、 构 造 模型 能 量 函 数 的 匹 
配方 法 等 ， 这 些 方法 可 适用 于 质量 比较 差 的 照片 ， 缺 点 在 于 它们 的 模板 的 描述 不 够 精确 ,更 
适合 于 变化 比较 大 的 面部 器 官 ， 因 此 它们 常用 于 提取 了 眼睛、 口 的 轮廓 。 微 软 公司 亚洲 研究 院 
的 Tian Yingli 等 人 也 采用 几何 特征 提取 与 神经 网 7 me En] 
络 相 结 合 的 方法 ， 对 正面 或 接近 正面 的 面部 图 
像 进行 表情 识别 。 其中， 提取 几何 特征 主要 包 
括 对 于 关键 部 件 的 定位 特征 和 表情 区 的 形状 特 
征 ， 如 图 64 所 示 。 

3. 基于 面部 轮廓 特征 的 模板 匹配 

这 是 在 手工 标定 特征 点 的 基础 上 改进 的 ， ” 图 64 用 于 表情 识别 的 面部 几何 特征 
也 是 一 种 基于 几何 特征 的 方法 。 它 首先 将 图 像 人 
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用 大 量 的 标记 点 来 描述 主要 的 特征 ， 并 通过 对 一 系列 的 训练 图 像 中 的 这 些 标记 点 的 位 置 进行 
统计 分 析 ， 从 而 得 到 一 个 可 变型 的 模型 来 对 人 脸 的 形状 及 空间 关系 建 模 ， 用 于 表情 识别 。 参 
考 文献 [35] 给 出 了 眉毛 的 活动 轮廓 模型 、 轮 廓 模型 相对 特征 点 的 几何 方法 。 它 是 一 种 连 
续 的 形状 描述 ， 是 几何 特征 的 向 量 表 达 ， 简 言 之 ， 活 动 轮廓 就 是 能 量 最 小 化 的 曲线 ， 也 就 是 
对 人 脸 以 及 五 官 的 轮廓 进行 曲线 拟 合 ， 根 据 计 算 获得 一 个 最 优 的 拟 合 ， 这 条 曲线 的 参数 即 为 
特征 。 

以 上 提 到 的 几何 特征 提取 法 中 ， 手 工 标点 的 方法 在 实验 阶段 比较 常用 ， 但 不 适合 实时 的 
全 自动 的 表情 识别 的 要 求 ; 全 自动 提取 特征 点 的 方法 对 先 验 特征 有 比较 强 的 依赖 性 ， 并 且 在 
提取 特征 时 常 受 到 饰物 、 胡 须 、 复 杂 背 景 以 及 光照 的 影响 。 总 的 来 说 ， 提 取 儿 何 特征 进行 表 
情 识 别 的 优点 是 : 直观 ， 符 合 人 有 眼 进行 表情 识别 的 规律 ， 并 且 在 很 大 程度 上 减少 了 输入 特 
征 ， 压 缩 了 数据 信息 ; 但 是 用 有 限 的 特征 点 来 代表 人 脸 图 像 ， 一 些 细微 的 表情 变化 特征 就 会 
丢失 ， 而 且 实验 表明 ， 几 何 特征 提取 的 精确 程度 不 容 乐观 。 


6.3 ”统计 特征 的 提取 


与 提取 图 像 的 儿 何 特征 相 比 ， 这 种 统计 特征 是 基于 图 像 的 整体 灰 度 特征 的 ， 它 强调 尽 可 
能 多 地 保留 原始 面部 表情 图 像 的 信息 ， 通 过 对 大 量 样本 的 训练 ， 获 得 其 统计 特征 ， 其 基本 思 
想 是 将 面部 表情 图 像 映射 到 特征 空间 ， 将 大 量 图 像 数 据 降 维 后 进行 模式 分 类 ， 因 此 提取 统计 
特征 的 方法 实际 上 就 是 “ 子 空间 分 析 法 ”。 如 果 将 子 空间 的 正 交 基 按 照 图 像 阵列 排列 ， 则 可 
以 看 出 这 些 正 交 基 呈现 人 脸 的 形状 ， 因 此 这 些 正 交 基 也 被 称 作 特 征 脸 ， 这 种 识别 方法 也 叫 特 
征 脸 方 法 。 


6.3.1 主 成 分 分 析 算 法 


主 成 分 分 析 (Principal Component Analysis, PCA) 算法 是 一 种 经 典 的 统计 方法 。 这 种 线 
性 变化 被 广泛 地 应 用 在 数据 压缩 和 分 析 中 。PCA 算法 就 是 用 来 描述 和 表征 细微 差异 的 有 力 
工具 。 在 语音 和 图 像 信 号 处 理 时 ， 经 常会 遇 到 高 维 的 向 量 空间 的 数据 处 理 问题 ， 而 这 些 高 维 
数据 往往 存在 较 大 程度 的 相关 元 余 ， 所 以 希望 从 高 维 空间 的 数据 中 找 出 具有 代表 性 的 低 维 子 
空间 ， 从 而 对 数据 更 容易 地 进行 分 析 和 人 处理 。 在 最 大 程度 上 保持 信息 量 的 前 提 下 ， 从 高 维 数 
据 空间 中 提取 出 维 数 降低 的 特征 分 量 。 在 信号 处 理 和 模式 识别 中 ，PCA 算法 相当 于 采用 奇 
异 值 分 解 (SVD) M K-L 变换 。 

1. K-L 变换 的 基本 原理 

在 这 里 ， 所 讨论 的 面部 表情 图 像 是 经 过 大 小 归 一 化 等 预 处 理 后 的 灰 度 数据 图 像 。 把 一 幅 
面部 表情 图 像 按 行 或 列 排列 为 一 个 向 量 ， 称 为 “面部 表情 向 量 ”; 由 多 个 图 像 所 组 成 的 空间 
称 为 “原始 图 像 空 间 ”。 

然而 ， 由 于 人 脸 固有 的 相似 性 ， 在 “原始 图 像 空 间 ” 中 ， 面 部 表情 向 量 仅 分 布 在 一 个 
较 小 的 范围 内 ， 所 以 “原始 图 像 空间 ”不 是 最 优 的 。 为 了 有 效 地 提取 面部 表情 图 像 特征 ， 
人 们 用 K-L 变换 进行 统计 特征 提取 。 它 是 图 像 压缩 中 的 一 种 最 优 正 交 变换 ， 同 时 也 是 子 空 
间 法 模式 识别 的 基础 。 若 将 K-L 变换 用 于 表情 识别 ， 则 需 假 设 面部 表情 处 于 低 维 线性 空间 ， 
且 不 同 面部 表情 具有 可 分 性 。 由 于 高 维 图 像 空 间 经 过 K-L 变换 后 可 得 到 一 组 新 的 正 交 基 ， 
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因此 可 通过 保留 部 分 正 交 基 ， 以 生成 低 维 面部 表情 空间 ， 而 低 维 空间 的 正 交 基 则 可 通过 分 析 
面部 表情 训练 样本 集 的 统计 特性 来 获得 。K-L 变换 的 生成 矩阵 可 以 是 训练 样本 集 的 总 体 散 布 
和 矩阵， 也 可 以 是 训练 样本 集 的 类 间 散 布 矩 了 泗 ， 即 可 采用 同一 表情 的 数 张 图 像 的 平均 来 进行 训 
练 ， 这 样 可 在 一 定 程度 上 消除 光线 等 的 干扰 ， 且 计算 量 也 得 到 减少 ， 而 识别 率 不 会 下 降 。 

2. K-L 变换 的 算法 

假设 训练 的 每 幅面 部 表情 图 像 的 像素 数 为 4， 共 有 撕 幅 训练 样本 ， 则 所 有 训练 样本 的 向 
量 集 合 记 为 = [X eR l] i=1, 2, +, 4， 列 向 量 是 由 面部 表情 数据 按照 行 首尾 连接 得 
到 的 。 这 样 下 对 应 一 个 &x5 维 的 人 脸 空 = 间 。K-L 变换 试图 找到 一 个 低 维 的 子 空间 来 表示 原 
来 的 面部 表情 空间 。 记 




































































EX) = LY X, (6-1) 
| n a a 个 人 脸 数据 向 量 减 去 平均 向 量 ， 可 以 
得 到 一 个 新 的 向 量 集合 : X= [Xl i=1, 2, oc, kl, HPX, =X, -E (X) 
FE X 的 协 方差 矩阵 可 以 表示 为 
C = cov(X) =E(X@X) = —Y +X! (6-2) 





式 中 ，C 是 一 个 dxd 的 矩阵 。C 的 特征 向 量 构成 了 一 组 R^ 空间 的 正 交 基 。 这 组 基 叫 做 K-L 
基 。 我们 记 这 组 正 交 的 特征 向 量 为 u, u, e, ws， 其 对 应 的 全 部 特征 值 分别 为 A， 
和 A;,，，…,As， 特 征 问 量 按 列 形成 的 矩阵 为 U， 那 么 在 特征 空间 ， 面 部 表情 向 量 站 的 投影 》 
Y=U'(X-E(X)) (6-3) 
TB ete A mm <d) 个 特征 向 量 作 为 正 交 基 ， 记 其 矩阵 为 U， 则 在 特征 空间 的 子 空间 
中 可 得 到 近似 表达 式 为 









































Y~=U'(X-E(X)) (6-4) 

将 子 空间 的 正 交 基 按 照 图 像 阵列 排列 ， 可 以 看 出 这 些 正 交 基 呈 现 人 脸 的 形状 ， 因 此 这 些 
正 交 基 也 被 称 为 特征 脸 (Eigenface) ， 这 种 表情 识别 方法 也 叫 特征 脸 方 法 。 

3. 正 交 基 的 选取 

关于 正 交 基 的 选择 有 不 同 的 考虑 ， 即 与 较 大 特征 值 对 应 的 正 交 基 (也 称 主 分 量 ) 可 用 
来 表达 人 脸 的 大 体形 状 ， 采 用 主 分 量 作 正 交 基 的 方法 称 为 主 成 分 分 析 (PCA) 算法 。 对 于 集 
合 站 中 的 一 个 面部 表情 向 量 x*x，PCA 就 是 将 向 量 x 投影 到 与 协 方差 矩阵 C 的 、 按 降序 排列 的 
前 m 个 特征 值 对 应 的 特征 问 量 所 张 成 的 子 空间 上 上。 投影 产生 了 一 个 包含 m 个 系数 a, 
Q, ', à, 的 向 量 。 这 样 面部 表情 向 量 x 就 表达 成 特征 向 量 的 线性 组 合 ， 其 权 值 就 是 a ， 
a;，…，amo 可 以 证 明 ， 主 成 分 分 析 算法 的 重 构 误 差 等 于 被 忽略 的 特征 向 量 所 对 应 的 特征 值 
(BI Amsis Ames > Ag) 的 和 。 由 此 可 见 ，PCA 算法 具有 较 好 的 图 像 重 构 功能 。 

另 一 种 选择 是 采用 m 个 次 分 量 作为 正 交 基 。 原 因 是 所 有 人 脸 的 大 体形 状 和 结构 相似 ， 
真正 用 来 区 分 不 同 面部 表情 的 信息 是 用 次 分 量 表达 的 高 频 成 分 ; 主 分 量 更 适用 于 表达 图 像 的 
低频 成 分 ， 具 体 细节 还 需要 用 与 小 特征 值 对 应 的 特征 向 量 ( 也 称 次 分 量 ) 来 加 以 描述 。 因 
此 也 可 理解 为 低频 成 分 用 主 分量 表 示 ， 而 高 频 成 分 用 次 分 量 表示 。 

4. 投影 空间 的 图 像 分 类 

由 训练 得 到 特征 脸 后 ， 将 待 识别 面部 表情 图 像 投影 到 新 的 m 维 表情 空间 ， 即 用 一 系列 
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特征 脸 的 线性 加 权 和 来 表示 它 。 这 样 即 得 到 一 个 投影 系数 向 量 来 代表 待 识别 的 面部 表情 ， 这 
时 表情 识别 问题 就 转化 为 m 维 空间 的 坐标 系数 向 量 分 类 问题 ， 最 简单 的 分 类 标准 是 距离 判 
别 法 。 

假设 两 个 n HET EE x = (x. m. oon. x) 和 y= Qs Ys re y) 之 间 的 距离 为 
S (x, y), TÉ PHBSER ES BE SUR VA FILATI: 

e LI 距离 (City block Distance) 








S(x,y) =lx-yl = lx -yl (6-5) 
i=l 
e I2 距离 ( 欧 氏 距离 ，Duclidean Distance) 


SG.) = 1z-?1 = JS G0 (6-6) 


© Ef (Angle) 





S(x,y) =- (6-7) 








这 些 基 本 的 距离 还 可 以 结合 起 来 使 用 。 

选择 好 适当 的 距离 度量 以 后 ， 就 要 选择 适当 的 距离 分 类 器 。 以 下 是 常用 的 距离 分 类 天 : 

© 最 紧邻 (Nearest Neighbor) 分 类 器 : 是 最 常用 的 分 类 器 ， 即 把 待 识别 的 样本 归 为 与 
之 最 近 的 已 知 样本 所 在 的 类 。 

e 下 近邻 (K Nearest Neighbor) 分 类 器 : 分 类 器 取 待 识别 样本 的 天 个 近邻 ,这 天 个 近 
邻 中 属于 哪 一 类 的 已 知 样本 多 ， 则 把 待 识别 样本 归 为 哪 一 类 。 

e 近邻 中 心 (Nearest Center) 分 类 器 : 首先 把 要 求 得 到 的 已 知 样本 类 平均 (类 中 心 )， 
把 待 识别 样本 归 为 与 之 最 近 的 类 中 心 所 在 的 类 。 

FEF K-L 变换 的 特征 脸 识 别 方法 用 于 表情 识别 的 基本 原理 是 : 假设 人 脸 处 于 低 维 线性 
空间 ， 且 不 同 面部 表情 具有 可 分 性 ， 将 高 维 图 像 空 间 的 面部 表情 图 像 经 K-L 变换 后 得 到 一 
组 新 的 正 交 基 ， 通 过 分 析 面 部 表情 训练 样本 集 的 统计 特性 保留 部 分 正 交 基 ， 以 生成 低 维 面部 
表情 空间 。K-L 变换 的 生成 矩阵 可 以 是 训练 样本 集 的 总 体 散布 矩阵 ， 也 可 以 是 训练 样本 集 的 
类 间 散 布 矩 了 泗 ， 这 样 不 仅 在 一 定 程度 上 消除 光线 等 的 干扰 ， 而 且 在 不 降低 识别 率 的 前 提 下 有 
效 地 减少 了 计算 量 。 根 据 总 体 散布 矩阵 或 类 间 散 布 矩 阵 可 求 出 一 组 正 交 的 特征 向 量 U, us, 

，U,， 其 对 应 的 全 部 特征 值 分 别 为 A!，A,，…，A,， 这 样 在 新 的 正 交 空 间 中 ， 面 部 表情 
FER X W ARIN 




































































xc (6-8) 
若 通过 选用 mm (men) 个 特征 向 量 作为 正 交 基 ， 则 在 该 正 交 空间 的 子 空间 中 ， 就 可 得 到 以 
下 近似 表达 式 : 

xe xa (6-9) 


i=l 


由 训练 得 到 特征 脸 后 ， 将 竺 识别 面部 表情 投影 到 新 的 m 维 空间 ， 即 用 一 系列 特征 脸 的 线性 
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加 权 和 来 表示 它 ， 这 样 即 得 到 一 个 投影 系数 向 量 来 代表 符 识 别 的 面部 表情 。 此 时 ， 表 情 识别 
问题 就 转化 为 m 低 维 空间 的 坐标 系数 向 量 分 类 问题 。 

PCA 算法 提供 了 一 种 在 控制 信息 损失 和 简化 问题 之 间 取 得 折 中 的 有 效 方式 。 它 能 够 把 
高 维 的 数据 进行 有 效 降 维 ， 用 能 表征 数据 特征 的 低 维 向 量 来 代替 原始 的 高 维 数据 ， 给 数据 的 
处 理 带 来 了 很 大 方便 。 但 是 ，PCA 算法 在 进行 计算 时 ， 事 先 需 要 全 部 的 数据 ， 并 且 和 矩阵 运 
算 的 运算 量 较 大 ， 在 存在 不 良 数据 时 ， 计 算出 的 主 分 量 和 实际 值 会 有 较 大 的 误差 。 目 前 关于 
PCA 算法 研究 相当 一 部 分 都 在 进行 PCA 算法 稳健 性 方面 的 探索 和 改进 。 考 虑 PCA 算法 稳健 
性 主要 在 两 个 方面 : 怎么 减少 计算 误差 : 在 输入 信号 不 服从 正 态 分 布 情况 下 ， 如 何 使 输出 的 
主 分 量 相互 独立 ， 主 要 方法 就 是 引入 非 线性 函数 。 非 线性 函数 的 引入 可 以 提高 PCA 算法 的 
稳健 性 ， 这 些 非 线 性 函数 根据 输入 样本 的 变化 ， 对 变换 矩阵 的 步 长 做 相应 的 调整 ， 使 算法 更 
加 稳健 。 但 是 如 何 选择 和 引入 非 线性 函数 ， 在 理论 上 仍然 没有 比较 完美 的 解决 方案 。 另 外 ， 
PCA 算法 对 藏 于 数据 中 的 独立 噪声 没有 很 好 的 稳健 性 。 这 是 因为 PCA 算法 把 输入 数据 的 方 
差 进行 了 最 大 化 ， 从 而 保留 了 一 些 并 不 想 要 的 变量 。 因 此 PCA 算法 空间 中 不 同类 别 的 数据 
的 投影 常常 会 模糊 不 清 。 


6.3.2 二 维 主 成 分 分 析 算 法 


二 维 主 成 分 分 析 (2DPCA) 算法 是 一 种 图 像 特 征 提取 方法 。 与 PCA 算法 的 不 同 之 处 在 
F, 2DPCA 算法 是 以 图 像 矩 阵 为 分 析 对 象 ; 而 PCA 算法 是 以 图 像 的 一 维 向 量 为 分 析 对 象 。 
因此 ，2DPCA 算法 在 图 像 特征 提取 之 前 不 必 降 维 。 构 造 图 像 协 方差 矩阵 时 ，2DPCA 算法 直 
接 利 用 图 像 矩阵 。 而 PCA 算法 首先 将 图 像 矩 阵 转换 成 列 向 量 ， 然 后 利用 列 向 量 来 构造 协 方 
差 和 矩阵。 移 阵 转换 成 列 向 量 的 过 程 中 ， 由 于 维 数 大 大 增高 ， 因 此 进行 PCA 算法 之 前 常常 实 
施 降 维 处 理 。 这 样 的 维 数 一 般 比较 高 ，100 x 100 的 就 是 10000， 会 耗费 大 量 的 时 间 ， 并 且 有 
可 能 会 有 类 内 散布 矩阵 奇异 的 问题 。 针 对 这 一 问题 ，1993 年 Liu 等 人 提出 了 一 种 线性 鉴别 分 
析 的 新 思路 ， 其 基本 思想 是 利用 数字 图 像 矩 阵 直 接 构 造 图 像 散布 矩阵 ， 并 在 此 基础 上 进行 鉴 
别 分 析 ， 这 就 是 2DPCA 算法 ; 2003 年 杨 健 等 人 从 统计 不 相关 性 的 角度 ， 重 新 审视 并 改进 了 
Liu 的 方法 ， 从 而 得 到 一 种 具有 统计 不 相关 性 的 图 像 投影 鉴别 分 析 方法 ; 2004 年 杨 健 等 人 将 
参考 文献 [7] 所 述 的 方法 称 为 2DPCA 方法 ， 并 将 此 方法 用 于 图 像 重 构 ， 取 得 了 很 好 的 效果 。 
下 面 详细 讨论 2DPCA 算法 的 基本 原理 。 

RX RR n 维 列 向 量 ， 即 对 e R*”* 。 任 意 一 副 样本 图 像 4s R”"" 向 x 方向 投影 后 ,得 

Y=AX (6-10) 
式 中 , 了 为 样本 图 像 4 向 x 方向 投影 的 特征 向 量 ，Y e R"" 。 如 何 选 择 满意 的 投影 方向 是 必 
须 解 决 的 问题 。 为 此 引入 投影 特征 向 量 了 的 总 离散 或 协 方差 矩阵 ， 通 过 求 其 迹 的 最 大 值 来 
求 最 佳 投影 方向 ， 其 准则 为 









































































































































J(X) =tS, (6-11) 
UP, S, 为 投影 特征 向 量 了 的 协 方差 矩阵 迹 ; tS.) 为 矩阵 S, 的 迹 。 通 过 求 式 (6-11) 的 最 
大 值 可 确定 最 佳 投影 方向 x。 这 里 
S, -E(Y - EY) (Y -EY)' - E AX - E(AX) J AX -E(AX) ]' 
tr(S,) -X'LE(A-EA)' (A- EA) |X (6-12) 








假设 
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G, -E((A - EA)'(A- EA) | (6-13) 
XP. G, 为 样本 图 像 4 BND AEE., PAK C6-13) A, ERE G, 是 一 个 nxn HIERE 
阵 ， 利 用 训练 样本 图 像 可 直接 求 得 G,。 假 设 训练 样本 数 为 MM，4,(j =1，2，…， 必 ) 表 示 第 j 
个 训练 样本 ， 是 4;e R""", FARE G, 的 计算 则 变 为 


p PEM - 
G, - 32: (A, - A)'(A; - A) (6-14) 


j=1 








RP, 4 为 所 有 训练 样本 的 均值 图 像 , 4 = (1/M) 2,4; 。 依 据 式 (6-12) ~ 式 (6-14) ， 式 (6- 
11) 可 转化 为 
J(X) =X'G,X (6-15) 

AP, X HEIE, 外 e R*””。 该 准则 称 为 广义 总 离散 度 准则 。 当 (对 ) 取 最 大 值 时 ， 得 
到 的 一 维 列 向 量 互 叫做 最 佳 投影 轴 ， 表 明 图 像 矩 阵 4 向 站 方向 投影 后 ， 投 影 特征 癌 量 了 的 
总 离散 度 是 最 大 的 。 

最 佳 投影 轴 天 ,是 当 目标 函数 J CX) 取 最 大 值 时 的 一 维 向 量 ， 也 就 是 矩阵 G, 的 最 大 特征 
值 对 应 的 特征 向 量 。 一 般 来 说 ， 只 有 一 个 最 佳 投 影 轴 是 不 够 的 。 通 常 选择 d 个 较 大 特征 值 对 
应 的 特征 向 量 耻 ，X,，…，X,， 这 样 既 满足 目标 函数 /于 ) 最 大 ， 又 使 特征 向 量 相互 正 交 ， 
即 
































[X X,, «+, X,}=arg max J(X), A X;X,=0, ij, i, j=l, =, d (6-16) 
6.3.3 线性 判别 分 析 算 法 


线性 判别 分 析 (LDA ) 算法 以 样本 的 可 分 性 为 目标 ， 试 图 寻找 一 组 线性 变换 ， 使 每 类 的 
类 内 离散 度 最 小 ， 并 且 使 类 间 离 散 度 最 大 。 经 典 LDA 算法 中 使 用 的 是 Fisher 准则 函数 ， 所 
以 线性 判别 分 析 又 被 称 为 Fisher 线性 判别 分 析 (Fisher LDA, FLD). LDA 也 是 一 种 很 好 的 人 
脸 识别 的 方法 ， 但 是 用 LDA 特征 提取 时 容易 出 现 的 问题 就 是 小 样本 (SSS ) 的 问题 。 这 里 首先 
对 LDA 的 基本 原理 进行 介绍 ， 然 后 介绍 其 改进 算法 。 

1. LDA 基本 原理 

LDA 选择 与 类 内 散布 的 正 交 的 向 量 作为 特征 脸 空 间 ， 从 而 能 够 抑制 图 像 之 间 的 与 识别 
信息 无 关 的 差异 ， 以 使 对 光照 及 人 脸 表 情 变化 都 不 太 敏 感 。 这 种 方法 的 最 终 目 的 就 是 找到 一 
些 特 征 ， 使 得 类 间 离 散 度 和 类 内 离散 度 的 比值 最 大 ， 可 以 较 好 地 表现 类 间 的 差异 ， 有 利于 分 
类 。 

给 定 属 于 < 类 的 NN 幅 人 脸 图 像 训 练 样本 |X,| ,i=1，2,，…, 和 NN， 每 个 训练 样本 用 一 个 
n( 2I, x ) 维 向 量 表示 ，(7, x1.) 为 图 像 的 大 小 ,那么 ， 样 本 的 类 间 散 布 和 矩阵 5S,， 类 内 散 
布 矩 阵 S, 可 计算 如 下 : 






































Lic T 
S, = a 2, n, - m) (m, - m) (6-17) 


1 c 
S,- —Y NS, (6-18) 
NA 





AF, Mæ C (iml, 2, ++, c) 类 的 训练 样本 数目 ; m 为 C; 类 样本 均值 向 量 , m; = 
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G/N) > x ; m 为 所 有 样本 的 均值 , m = (1AN) > x ;8 为 Ci 类 的 协 方差 矩阵 。 这 时 ， 总 
Jut FER S, 可 表示 为 
$,=8,+8,= LX Gom) om)? (6-19) 


可 见 S, 是 所 有 样本 的 协 方差 矩阵 。 

LDA 算法 的 目标 就 是 找到 一 个 最 佳 投影 Won: 
| W's, WI 
| W'S .WI 

求解 函数 式 (6-20) 就 等 同 于 求解 S'S, 的 特征 值 问题 。 使 J(w) 最 大 的 变化 矩阵 W, 由 
S. S, 的 前 m 个 最 大 特征 值 所 对 应 的 特征 向 量 组 成 。 

HFN 不 够 大 ， 引 起 大 小 为 (zxz) 的 类 内 散布 矩阵 S, a, BE ST S, 的 特征 值 无 法 
直接 求解 ， 这 就 是 SSS 问题 。 

2. LDA 算法 的 改进 

为 了 解决 SSS 问题 ， 好 多 文献 对 此 进行 了 研究 。 假 定 类 间 散 布 矩 阵 S, 和 类 内 散布 矩阵 
S, 的 零 空 间 分 别 为 4 和 B，, ABA A =R" -4 和 B'=R"-B 分 别 为 4 和 B 的 补 空间 。 由 Fisher 
准则 函数 可 知 ， 最 优 识别 空间 应 为 4' 和 B 的 交集 4'Nn B. 

为 了 解决 S$, 的 奇异 问题 ， 参 考 文献 [4] 提 出 了 Fisherface 方法 。 用 LDA 算法 进行 特征 提 
取 以 前 ， 先 用 PCA 算法 进行 降 维 。 该 方法 存在 的 问题 是 ， 因 为 PCA 算法 与 LDA 准则 并 不 相 
容 ， 虽 然 利 用 PCA 算法 降 维 使 5S, WE, BERT S 的 零 空 间 ， 所 以 丢失 了 一 部 分 很 重要 
的 分 类 信息 。 

男 一 种 常用 的 可 以 解决 SSS 问题 的 方法 是 D-LDA( 直接 LDA ) 算 法 : 首先 去 掉 S, 的 零 空 
间 ， 然 后 再 使 类 内 离散 度 最 小 。D-LDA 算法 看 似 避 免 了 丢失 S, 的 零 空 间 。 但 是 ，S IS, 
的 秩 存在 这 样 的 关系 : rankS, <rankS,<NC 在 去 掉 S, 的 零 空间 使 %, 满 秩 的 同时 ，S, 也 达 
到 满 秩 ， 即 采用 D-LDA 算法 间接 丢失 了 S, 的 零 空 间 。 

还 有 好 多 解决 SSS 问题 的 方法 ， 虽 然 都 取得 了 好 的 结果 ， 但 是 用 在 人 脸 识别 上 没有 使 人 
脸 识 别 率 得 到 提高 ， 并 且 不 能 达到 实时 性 的 要 求 。 

在 这 里 只 是 介绍 了 取得 好 的 效果 和 最 常用 的 降 维 方法 ， 当 然 还 有 许多 其 他 的 方法 。 


6.3.4 独立 成 分 分 析 算 法 


PCA 算法 只 能 去 除 特征 之 间 的 相关 性 ， 不 能 获取 特征 的 独立 成 分 。 因 此 在 提取 图 像 的 
统计 特征 中 ， 又 提出 了 独立 成 分 分 析 (ICA) 算 法 。ICA 算法 是 继 PCA 之 后 的 又 一 分 析 多 维 数 
据 的 有 力 工 具 ， 它 是 随 着 盲 信 源 分 解 问题 而 发 展 起 来 的 ， 其 目的 是 获取 数据 的 独立 分 量 。 
PCA 算法 的 主轴 是 正 交 的 ， 不 影响 数据 投影 的 相关 性 ; ICA 算法 的 主轴 是 独立 的 ， 但 不 一 定 
正 交 ， 因 此 ICA 算法 的 结果 具有 更 好 的 可 分 性 ( 见 图 6-5)。 

ICA 算法 求解 的 基本 模型 为 





J(W) =arg max (6-20 ) 








































































































X =AS (6-21) 
S=WX (6-22) 
AP, X Aud: $ 为 独立 分 量 ， 且 被 假定 是 统计 独立 的 ; A AEREE; W 为 独立 
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HEERE, ICA 算法 的 基本 目标 是 求解 混合 基 和 矩阵 4 或 独立 基 和 矩阵 W， 并 使 S 尽量 独立 。 该 
问题 的 难点 在 于 仪 知 道 X， 而 4、W 和 5S 都 是 未 知 的 ， 研 究 人 员 已 经 提出 了 一 些 有 效 的 方 
法 ,例如 Hyvrinen 等 人 提出 的 Fast ICA 算法 ， 来 解决 这 些 问题 。 

这 种 基于 图 像 整体 统计 特征 提取 的 方法 的 EE E 


缺点 是 ， 对 于 外 在 因素 带 来 的 图 像 差 异 和 人 脸 
面部 表情 本 身 带 来 的 差异 是 不 加 任何 区 分 的 ， f 
































因此 照片 的 角度 、 光 线 、 尺 寸 以 及 不 同人 脸 的 
形状 大 小 差异 等 干扰 都 会 导致 识别 率 的 下 降 。 
为 了 改善 这 个 不 足 ， 一 个 思路 是 针对 干扰 ， 对 
给 入 图 像 作 规范 化 处 理 ， 主 要 包括 将 输入 图 像 
的 均值 方差 归 二 化 、 ABR; a ESS TARAS PCA 并 法 的 主轴 
种 改进 思路 是 考虑 到 局 部 人 脸 图 像 受 外 在 干扰 相对 较 小 ， 而 且 眼 睛 、 嘴 等 区 域 对 表情 识别 的 
贡献 率 明显 大 于 面部 的 其 他 部 分 ， 因 此 在 进行 人 脸 识别 时 ， 可 利用 K-L 变换 计算 出 特征 眼 
WE. 、 特 征 嘴 等 。 然 后 将 局 部 特征 向 量 加 权 进 行 匹 配 ， 就 能 够 得 到 一 些 好 的 效果 。 


6.4 频率 域 特征 的 提取 

























































































6.4.1 小 波 技 术 


小 波 变换 是 一 种 信号 的 时 间 斥 度 ( 时 间 - 频 率 ) 分 析 方 法 ， 它 具有 多 分 辨 率 分 析 的 特点 ， 
而 且 在 时 频 两 域 都 具有 表征 局 部 信号 特征 的 能 力 ， 是 一 种 窗口 大 小 可 改变 的 时 频 局 部 方法 。 
因此 ，Smallat 在 1988 年 提出 的 小 波多 分 辩 率 分 析 成 为 了 图 像 模式 识别 的 有 效 工 具 。 

WAAR RAIA SIX E; m, nez, S C, mn Xu, WU HEP REUNIR 
递 推 公式 为 


























C, m = (HBH) (Chat) mn = Gj ale aml an (6-23) 
D; mn = (HBG) (Cai) mn = È Car hie -2m81-2n (6-24) 
Do. =(G@H) (Cj, bos = > Cy i agi -am 有 an (6-25 ) 
px. = (GG) ( Ga us = > Crit IEk-2m81-2 (6-26) 





AF, HL G Aye op dhr) pe Pig, pe UE Bar; H AE as, OPE TEA; 
D' 为 小 波 分 解 垂直 方向 上 的 系数 ; D^ 为 小 波 分 解 水 平方 向 上 的 系数 ; D 为 小 波 分 解 对 角 线 
方向 上 的 系数 ; C 为 小 波 分 解 低频 子 带 上 的 系数 。 

在 一 层 二 维 小 波 分 解 的 基础 上 ， 可 以 继续 对 一 层 分 解 的 低频 系数 图 像 进行 小 波 分 解 得 到 
二 层 小 波 分 解 图 像 。 分 解 的 低频 系数 图 像 保持 了 原 图 像 的 低频 量 ， 为 原 图 像 的 平滑 像 ; 水 平 
高 频 图 像 保持 了 原 图 像 的 水 平 边缘 细节 ; 垂直 高 频 图 像 保 持 了 原 图 像 的 垂直 边缘 细节 ; 对 角 
线 线 高 频 图 像 保持 了 原 图 像 的 斜 边 缘 细节 。Nasta 等 人 研究 了 人 脸面 容 变化 及 其 频谱 变化 的 
关系 ， 发 现 人 脸 图 像 的 表情 变化 和 少许 遮掩 只 影响 局 部 光 强 度 流 (Intensity Manifold Locally) , 
如 果 用 频率 来 表达 ， 只 会 影响 高 频谱 部 分 ， 称 为 高 频 现象 ( High Frequency Phenomenon) , ， 而 
且 经 过 分 解 的 低频 子 图 像 的 存储 空间 和 计算 存在 复杂 性 ， 经 过 适当 的 小 波 分 解 的 低频 图 像 对 
人 脸 图 像 的 表情 变化 不 敏感 ， 但 可 以 保持 充分 区 分 不 同人 脸 的 能 力 。 
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傅 里 叶 变 换 是 传统 而 有 效 的 信号 分 析 工 具 ， 对 人 脸 图 像 小 波 分 解 的 低频 系数 进行 频谱 表 
达 ， 就 是 对 其 进行 傅 里 叶 变换 了 。 对 以 二 维 信号 f(x，y) e LOU) Gf np Eg XS 
Huo) = { [faye qua, (627) 


并 且 容 易 证 明 f(x -a, y -b) eVL(R )， 则 有 人 像 的 振幅 谱 图 像 是 位 移 不 变 的 。 因 此 可 对 小 
波 分 解 后 的 低频 系数 图 像 进行 傅 里 叶 变换 ， 采 用 这 种 方式 可 以 完全 消除 因 空 间 位 置 对 不 准 而 
带 来 的 位 移 误差 。 经 过 对 傅 里 叶 变 换 后 的 系数 矩阵 进行 数据 分 析 就 可 以 得 出 此 人 脸 图 像 的 特 
征 向 量 。 也 就 是 先 求 取 和 矩阵 的 行 向 量 范 数 ， 再 求 列 向 量 的 范 数 ， 然 后 对 这 两 组 范 数 进行 组 合 
就 行 了 。 

6.4.2 Gabor 小 波 


Gabor 变换 ( 亦 称 加 窗 侍 里 叶 变 换 ) 是 由 Gabor 在 20 世纪 40 年 代 利 用 高 斯 函数 作为 窗口 
函数 首先 提出 的 。 近 几 十 年 来 ，Cabor 变换 在 信息 处 理 方面 得 到 了 广泛 的 应 用 。 特 别 是 Ga- 
bor 小 波 核 函数 具有 与 人 类 大 脑 皮 层 简单 细胞 的 二 维 反射 区 相同 的 特性 ， 即 能 够 捕捉 对 应 于 
空间 频率 (尺度 ) 、 空 间 位 置 及 方向 选择 性 的 局 部 结构 信息 ， 因 此 用 二 维 Gabor 小 波 变换 的 系 
数 幅 值 作为 特征 来 匹配 有 着 良好 的 视觉 特性 和 生物 学 背景 ， 在 人 脸 识 别 和 图 像 处 理 中 曾 被 广 
泛 应 用 。 

Gabor 小 波 滤波 器 是 一 组 窄带 带 通 滤波 器 ， 在 空间 域 和 频率 域 均 有 较 好 的 分 辩 能 力 ， 有 
明显 的 方向 选择 和 频率 选择 特性 。 与 全 里 叶 变 换 相 比 ， 表 情 图 像 的 Gabor 小 波 分 解 是 一 种 局 
部 变换 ， 因 此 某 一 局 部 测度 的 范围 可 以 由 Gabor 小 波 滤 波 器 的 尺度 大 小 来 定义 。 

二 维 Gabor 滤波 器 函数 形式 如 下 : 


k; kx 
G(x) = xw 2 
j E 28 













































































2 


exp (ik,x ) - exp| - s (6-28) 
2 


d Qe [| 2 E a 中 =u: x x-(x, 
e w, Sino, 

y): 6 为 高 斯 窗 的 尺度 因子 ， 它 控制 滤波 器 的 斥 度 大 
小 和 带宽 ; c, Bh, Cu, v e N) 分 别 为 调制 频率 和 调 
制 方向 。 可 以 针对 采集 的 图 像 选 择 合适 的 6、w, 和 
pu, TE Gabor 小 波 滤波 器 对 图 像 的 主要 频率 分 量 有 较 
大 的 影响 ， 从 而 获得 反映 不 同 目 标的 主要 特征 ; 
(or，owr ) 分 别 是 x*、y 方向 的 频率 分 量 。 为 了 对 一 幅 
图 像 的 整个 频率 域 采样 ， 还 可 以 设计 具有 多 种 频率 与 a i | 
方向 的 多 个 Gabor 小 波 滤波 器 ， 构 成 一 组 Gabor 小 波 图 6-6 人 脸 图 像 的 小 波 描述 

滤波 器 合并 作用 于 表情 图 像 ， 这 就 相当 于 使 表情 图 像 

通过 不 同 的 窜 带 能 量 通道 ， 从 而 实现 目标 图 像 的 Gabor 小 波 分 解 。Buciu 等 人 利用 Gabor 小 
波 和 ICA 算法 进行 表情 识别 ， 表 示 了 取 o, =2 077^ m, p, 2 um/8, v 20, 1, 2, 3, 4, 
由 =0 m/4, m/2, 30/4 时 得 到 12 个 小 波 滤波 器 的 输出 ， 如 图 6-6 所 示 。 
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6.4.3 ”离散 余弦 变换 


离散 余弦 变换 ( Discrete Cosine Transform, DCT) 的 变换 系数 是 一 种 较 好 的 变换 系数 特征 。 
离散 余弦 变换 的 变换 核 为 实数 的 余弦 函数 ，DCT 是 K-L 变换 的 最 好 近似 ， 众 所 周知 ，K-L 变 
换 是 基于 不 同 的 性 能 准则 的 一 个 最 优 变换 。 前 面 的 PCA 变换 就 是 基于 KL 基 的 。 另 外 ， 因 为 
离散 余弦 变换 与 离散 传 里 叶 变 换 很 相近 ， 所 以 可 以 对 它 进 行 有 效 的 计算 。 基 于 这 两 个 特性 ， 
可 以 用 它 作 为 人 脸 的 特征 。 这 里 首先 介绍 一 下 离散 余弦 变换 的 理论 基础 。 

给 定 长 度 为 V 的 输入 序列 w(n)， 它 的 DCT 可 由 下 式 得 到 : 


v(k) = a(k) Y u(n)oos( £7) 

















OzxkzN-1 (6-29) 


AF, a(0) = /1/N, alk) = V2/N, LEN -1, 在 式 (6-29) 中 可 以 把 u(n) 序 列 视 为 一 
个 向 量 U， 把 DCT 看 作 一 个 变换 矩阵 ， 得 到 输出 序列 v"() ， 把 (8) 序 列 视 为 一 个 向 量 ， 
即 





y -CU (6-30) 
式 中 ，C 为 DCT 的 变换 矩阵 ， 即 
de aed abite 
Ck,n) = |vN (6-31) 
[Ares ( 22 * Ll) usse Mte d opas aec 
N 2N 


AF, ky n 为 变换 矩阵 的 行 和 列 。 得 到 的 即 为 所 需要 的 特征 向 量 ， 还 可 以 利用 DCT 的 逆 
变换 ， 将 原 图 像 进行 复原 ， 即 
U-C'V (6-32) 
x. CUN C Bp. 
有 以 上 DCT 的 理论 基础 ， 可 以 看 到 DCT 在 以 下 几 点 优 于 PCA 方法: O 将 每 一 幅 图 像 
和 矩阵 看 成 一 个 向 量 ， 可 以 对 每 个 向 量 进 行 单独 处 理 ， 提 取出 特征 向 量 ， 放 人 特征 库 里 面 ， 用 
于 以 后 的 识别 ; O 当 新 的 图 像 需 加 入 库 中 时 ， 经 过 预 处 理 之 后 ， 可 以 对 该 图 像 进行 DCT, 
需 考 虑 其 他 的 图 像 ， 这 样 即使 库 中 人 脸 图 像 很 多 时 ， 计 算 量 也 不 大 ，DCT 的 计算 速度 快 。 
而 PCA 方法 当 有 新 的 图 像 加 入 时 ， 必 须 重 新 计算 新 图 像 与 原 库 中 所 有 图 像 的 协 方差 矩阵 ， 
以 求 出 新 的 特征 空间 。 在 第 9 章 的 人 脸 识别 实例 中 ， 就 是 采用 离散 余弦 变换 系数 作为 HMM 
的 观察 向 量 来 进行 人 脸 识 别 的 。 



































6.5 ”运动 特征 的 提取 


以 上 所 介绍 的 特征 提取 方法 都 是 针对 一 幅 静 态 图 像 或 者 针对 动态 图 像 序列 中 的 菜 一 帧 进 
行 的 。 然 而 表情 识别 的 最 大 特点 是 它 是 一 个 动态 变化 的 过 程 。 心 理学 研究 表明 ， 尽 管 人 类 可 
以 依据 一 幅 静 态 图 像 判 别 其 中 的 人 脸 表 情 ,， 但 是 大 部 分 实验 者 在 识别 动态 序列 图 像 的 表情 
时 ， 准 确 率 明显 增高 。 可 见 提取 动态 图 像 序列 的 运动 特征 ， 对 于 表情 识别 有 着 特殊 的 意义 。 
当 输 入 的 人 脸 图 像 占据 图 像 主 要 位 置 时 ， 其 特有 的 运动 向 量 ( 光 流 ) 就 会 占据 绝对 优势 。 而 
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， 一 般 来 说 ， 人 脸 总 是 会 做 一 定 的 相对 运动 ， 其 运动 方式 虽 包 含 了 平 动 和 转动 ， 但 由 于 脸 
部 受 观 察 点 到 有 贷 部 转轴 的 距离 较 大 ， 而 且 在 短 时 间 内 转动 角 也 很 小 ， 因 此 ， 可 以 把 转动 近似 
地 当 作 平 动 处 理 。 这 些 基 本 要 素 使 得 运动 特征 提取 非常 适合 采用 光 流 场 的 方法 。 

光 流 是 指 亮 度 模式 引起 的 表 观 运动 ， 是 景物 中 可 见 点 的 三 维 速度 向 量 在 成 像 平面 上 的 投 
影 ， 它 表示 了 景物 表面 上 的 点 在 图 像 中 位 置 的 瞬时 变化 ; 同时 光 流 场 携带 了 有 关 运 动 和 结构 
的 丰富 信息 。 光 流 模型 是 处 理 运 动 图 像 的 有 效 方 法 ， 其 基本 思想 是 将 运动 图 像 函 数 f(x，y， 
i) 作 为 基本 函数 ， 根 据 图 像 强度 守恒 原理 建立 光 流 约束 方程 ， 通 过 求解 光 流 约束 方程 计算 运 
动 参数 。 

假设 在 时 间 1t， 图 像 中 坐标 为 (x，y) 的 像 元 ， 其 灰 度 为 fx，y，t) ， 经 过 时 间 At， 这 一 
点 像 元 运动 到 (x Ax, y +Ay) ， 其 灰 度 为 f(x + Ax, y+Ay, tt At). eer 
的 同一 个 点 ， 根 据 灰 度 守恒 ， 假设 有 

f(x, y, t) 2f(x * Ax, y - Ay, t - At) (6-33) 
如 果 认 为 灰 度 随 (x，y, 的 变化 是 平滑 、 连 续 的 ， 则 式 (6-33 ) 的 右边 可 以 用 泰勒 级 数 展开 ， 


得 





























af 


dx 十 
Ox 


af 


Ppt Rea Wd By E ER EIR, yo ay + Lar ue (6-34) 
J 





式 中 , eu dx, dy, dt 的 高 次 项 。 根 据 式 (6-33)， 消 去 f(x, y, t), H dio 时 ,得 到 
of dx of dy a 
uod 

4 af/óx - E,, of/üy =E,, af/at=E,, dx/dt =u, dy/dt =v, APERAR HIEN 

Eu +Ew+E, =0 (6-36) 
在 实际 应 用 情况 中 ， 光 流 场 基本 方程 的 灰 度 守恒 假设 往往 不 能 满足 ， 这 是 由 于 光源 的 运 

动 和 不 均匀 性 、 对 象 的 遮挡 性 和 透明 性 等 原因 造成 的 。 因 此 ，Shahriar、Negahdaripour 等 人 

提出 了 无 显著 特征 动态 图 像 模 型 (Generalized Dynamic Image Model, GDIM) o GDIM 中 灰 度 不 

再 保持 恒定 。 





=0 (6-35) 








f(x + Ax,y + Ay,t + At) = M(x,y,t)f(x,y,t) + C(x,y,t) (6-37) 
4 M(x,y,t) 2 1 Am(x,y,t) .C(x,y,t) = Ac(x,y,t) ， 将 其 代入 式 (6-37) , 得 
Af = f(x + Ax,y + Ay,t + At) —f(x,y,t) = Am(x,y,t)f(x,y,t) + Ac(x,y,t) 
(6-38) 
fi Am = Ac =0, 3\(6-38) rh AA=0， 就 转化 为 灰 度 守恒 假设 ， 所 以 灰 度 守恒 假设 是 GDIM 中 
的 一 个 特例 。 
E, +E,u + Ew - (mE + 6c) =0 (6-39 ) 
式 (6-39) 不 仅 约 束 了 像 元 的 运动 速度 [u,v]， 而 且 根 据 时 空 梯 度 约束 了 灰 度 变化 6m 和 6c。 
在 实际 序列 图 像 中 ， 式 (6-39) 更 加 符合 实际 情况 。 如 果 把 式 (6-38 ) 改写 成 
E, = ôg + ôE (6-40) 
UP, dg 为 几何 分 量 ，6g = - (Eu+E,v); 0E 为 灰 度 分 量 ， 两 者 的 比值 ag/aE 可 作为 两 者 
之 间 强 弱 关系 的 参数 。 例 如 由 运动 引起 的 变化 大 于 阴影 的 影响 ， 那 么 该 值 就 比较 大 ; 反之 较 
小 。 这 对 于 估计 运动 参数 和 物体 三 维 信息 非常 有 意义 。 这 个 参数 同时 也 可 用 于 基于 灰 度 的 传 
统 模式 的 信 品 比 测量 ， 因 为 一 般 认为 ， 运 动 参数 能 够 被 准确 估算 的 地 方 主要 在 于 0g/ 9E ke 
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较 大 的 地 方 。 

对 输入 的 人 脸 图 像 ， 外 界 的 干扰 因素 一 般 是 比较 多 的 ， 采 用 灰 度 不 守恒 的 光 流 场 基本 方 
程 更 显得 合适 与 可 靠 。 这 种 方法 具有 计算 精度 高 、 易 于 实现 等 优点 ， 有 一 定 的 实用 价值 。 而 
且 用 光 流 计算 的 方法 提取 其 运动 特征 ,一 方面 反映 了 表情 的 变化 实质 ; 为 一 方面 特征 受 光 照 
不 均匀 性 的 影响 较 小 ， 只 要 保证 在 同一 组 图 像 序 列 中 光照 强度 基本 不 变 ， 光 照 条 件 对 各 组 之 
间 的 影响 就 较 小 。 

以 上 只 是 对 特征 提取 方法 的 简单 介绍 ， 实 际 处 理 问题 时 ， 其 实 各 种 特征 提取 的 方法 并 不 
是 孤立 的 ， 并 且 还 要 结合 图 像 处 理 的 相关 工作 ， 例 如 用 滤波 或 者 均衡 化 来 提高 图 像 的 质量 ， 
从 而 特征 提取 时 能 获得 良好 的 特征 参数 、 较 好 的 表达 图 像 ， 以 得 到 好 的 识别 结果 。 


6.6 ”代数 特征 的 提取 


代数 特征 反映 的 是 图 像 的 一 种 内 在 属性 ， 将 图 像 作 为 矩阵 看 待 ， 可 对 其 进行 各 种 代数 变 
换 ， 或 进行 各 种 矩阵 分 解 。 由 于 抢 阵 的 特征 向 量 反 映 的 是 一 种 代数 属性 ， 并 且 具 有 不 变性 ， 
因此 可 用 来 表征 图 像 特征 。 不 变 矩 和 奇异 值 特征 是 两 种 常用 的 图 像 代 数 特征 ， 两 者 具有 平 
移 、 尺 度 和 旋转 不 变性 特征 ， 而 且 奇异 值 特征 还 对 噪声 、 光 照 变化 引起 的 图 像 灰 度 变 化 具有 
不 敏感 性 。 下 面 介绍 奇异 值 分 解 (SVD ) 的 人 脸 特 征 提 取 方 法 。 

l. 奇异 值 分 解 定理 

二 维 的 人 脸 图 像 相当 一 个 高 维 向 量 ， 直 接 用 其 进行 计算 太 困 难 ， 必 须 在 保持 主要 特征 的 
前 提 下 降 维 ， 也 就 是 希望 用 少量 的 特征 来 近似 整个 图 像 ， 而 奇异 值 分 解 (SVD ) 就 是 一 种 实现 
这 种 效果 的 良好 手段 。 

奇异 值 分 解 定 理 : 设 4 是 一 个 秩 为 + 的 nxr 维 矩阵 ， 则 存在 两 个 正 交 矩阵 





























































































































U = [uu Ku eR™ U'U =1 (6-41) 
V-2[w,wKE5u]eR* WVe=l (6-42) 

以 及 对 角 和 矩阵 
A = diag[ Ass Kc 1] e R”, H à >A SS (6-43) 


满足 4 =UATV", RIP, AG = 0,1, K,r - 1) 为 矩阵 447 和 474 的 非 零 特 征 值 ，u, Flv, 分 
别 为 447 和 474 和 对 应 于 入 , 的 特征 向 量 。 上 述 分 解 称 为 矩阵 4 的 奇异 值 分 解 ，\ 刀 为 4 的 
和 ,奇异 值 。 
2. 基于 SVD 的 特征 提取 
对 于 一 幅 大 小 为 w x N, 的 人 脸 灰 度 图 像 P(x,y) ,其 中 x e [1,N] ,ye [1,N,] ,上 且 
像素 值 P(x,y) 满足 P(x,y) e [0,1] ，x 为 行 索引 值 ，y 为 列 索 引 值 ， 定 义 其 投影 图 为 
V,H,(y) 
N,N,p 
RP, V, Go) LH, O) 分 别 为 图 像 P(x,y) 的 垂直 和 水 平 投影 ;为 平均 灰 度 值 。 
利用 正面 垂直 人 脸 的 对 称 性 ， 对 原始 图 像 进 行 光照 均衡 处 理 ， 得 到 的 图 像 为 P'(x,y) ， 
如 下 式 所 示 : 








M,(«,y) = (6-44) 








: P(x,y) + P(N, - x,y) 


P'(x,y) j 





(6-45) 
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结合 投影 图 后 的 人 脸 图 像 变 为 已 (x,y) ， 如 下 式 所 示 : 
P(x,y) + aM, (x,y) 、 
P,(x,y) = (a 为 结合 系数 ) (6-46 ) 
用 该 方法 处 理 前 后 的 图 像 中 光照 比较 均衡 。 另 外 ， 人 脸 具 有 多 种 表情 ， 表 情 的 变化 对 识别 的 
影响 也 很 大 ， 而 在 人 的 五 官 当 中 ， 嘴 巴 对 表情 的 影响 最 大 ， 相 比 之 下 ， 眼 睛 和 鼻子 的 影响 相 
对 较 小 。 为 此 采用 一 个 二 值 图 S(x,y) 县 加 到 人 脸 图 像 上 ， 以 进一步 屏蔽 嘴巴 的 影响 ， 得 到 
WEHR P(x,y) ， 如 下 式 所 示 : 
Pi(x,y) = P(x.) S(x,y) (6-47) 
经 过 上 述 处 理 后 的 人 脸 图 像 不 仅 有 效 地 减弱 了 光照 的 影响 ， 同 时 也 在 一 定 程 度 上 克服 了 表情 
的 影响 ， 从 而 较 好 地 保留 了 人 脸 的 不 变性 特征 。 令 训练 样本 集 的 总 体 散 布 矩 阵 王 为 


y= > Be RAN (6-48) 
































[i E ee ok 2 i2 (6-49) 


N-1 


式 中 ,J(x，y) 称 为 平均 脸 , Mul, y) = > Piles’) 


PsP cGy) -p(x, y), Post XxscY) -n(x, y), K, Pis(x, y)-u(x, y)] 
(6-50) 

SHEE W-P'PeR'", 根据 奇异 值 分 解 定义 ， 求 出 W 的 特征 值 A; 和 对 应 的 正 交 归 一 
特征 向 量 V,(i=0,1，…, N-1), 再 由 奇异 值 分 解 定理 可 知 ，3 的 正 交 归 一 特征 向 量 u = 
Pv, /VAi(i=0,，1,，…, N-1), u, 就 是 人 脸 图 相对 应 特征 值 A; 的 特征 向 量 ， 将 A, 按 降序 
排列 ， 并 选取 最 大 的 250 个 特征 值 所 对 应 的 特征 向 量 构成 图 像 变换 矩阵 UU， 占有 人 脸 特征 总 
量 90% 以 上 , 已 经 涵盖 了 人 脸 的 主要 特征 。 

对 于 任何 一 幅 人 脸 图 像 ， 都 可 以 求 出 其 与 平均 脸 之 差 在 变换 空间 U 上 的 投影 向 量 
P(x, y) =U'[P,(x, y) -u(x, y)], EF, 已 (x*，y) 是 一 个 250 维 向量 ， 也 就 是 人 脸 图 
f& P (xy) 经 过 特征 提取 后 的 代数 特征 。 此 时 ， 人 脸 图 像 的 维 数 已 经 大 大 降低 ， 同 时 保留 
了 绝 大 部 分 的 有 效 特 征 信息 。 
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第 7 音 面部 特征 的 模式 识别 算法 














人 脸 识别 或 表情 识别 的 最 后 一 步 就 是 采用 模式 分 类 算法 对 提取 出 的 特征 进行 模式 分 类 。 
在 整个 模式 识别 过 程 中 ,分 类 器 的 设计 与 特征 的 选择 和 提取 是 相互 独立 又 紧密 相关 的 两 个 环 
节 。 早 期 的 模式 识别 方法 ， 以 统计 模式 识别 方法 与 结构 模式 识别 方法 两 大 类 为 主 。 而 在 20 
世纪 80 年 代 ， 迅 速 发 展 的 模糊 数学 理论 、 人 工 神 经 网 络 理论 和 人 工 知 能 方法 不 断 深 入 到 模 
式 识 别 的 各 个 领域 和 环节 ， 出 现 了 模糊 模式 识别 方法 、 神 经 网 络 模式 识别 方法 和 人 工 智 能 模 
式 识 别 方法 。 

统计 模式 识别 方法 是 从 被 研究 的 模式 中 选择 能 足够 代表 它 的 奉 干 特征 ( 设 有 4d 个 ) 每 
一 个 模式 都 由 这 d 个 特征 组 成 的 在 d 维 空间 的 一 个 d 维特 征 向 量 来 代表 ， 于 是 每 一 个 模式 就 
在 d 维特 征 空间 占有 一 个 位 置 。 一 个 合理 的 假设 是 ， 同 类 的 模式 在 特征 空间 相距 很 近 ， 而 不 
同类 的 模式 在 特征 空间 则 相距 较 远 ， 这 是 因为 相距 近 的 模式 意味 着 它们 的 各 个 特征 相差 不 
多 ， 从 而 这 些 模式 处 在 同一 类 中 的 可 能 性 也 较 大 。 如 果 用 某 种 方法 来 分 割 特征 空间 ， 使 得 同 
一 类 模式 大 体 上 都 在 特征 空间 的 同一 个 区 域 中 。 对 于 待 分 类 的 模式 ， 就 可 根据 它 的 特征 向 量 
位 于 特征 空间 中 哪 一 个 区 域 而 判定 它 属于 哪 一 类 模式 。 统 计 模式 识别 的 任务 就 是 用 不 同 的 方 
法 划分 特征 空间 ， 从 而 实现 识别 的 目的 。 

统计 模式 识别 方法 是 研究 得 最 多 的 也 最 为 深入 的 ， 也 是 在 人 脸 识别 和 表情 识别 中 常用 的 
识别 方法 ， 因 此 本 章 主 要 介绍 统计 模式 识别 方法 ， 最 后 简单 介绍 了 神经 网 络 模式 识别 方法 和 
模糊 模式 识别 方法 。 


7.1 线性 判别 分 析 























































































































7.1.1 线性 判别 浮 数 的 基本 概念 


对 于 nn 维 空 间 中 的 < 个 模式 类 别 ， 各 给 出 一 个 由 个 特征 组 成 的 单 值 函数 、 这 叫做 判别 
PR. Tec 类 的 情况 下 ， 我 们 共有 cc 个 判别 函数 ， 记 为 ，g1(X)，g2(X)，…，g,(X)， 它 们 
分 别 对 应 于 模式 类 wo ，w,，…，w。。 作 为 判别 函数 ， 应 该 具有 如 下 的 性 质 : 假如 一 个 模式 
XX 属于 第 i 类 ， 则 有 


















































Ba ly See (7-1) 
而 如 果 这 个 模式 在 第 i 类 和 第 j 类 的 分 界面 上 ， 则 有 
ee (7-2) 
线性 判别 函数 是 最 简单 的 判别 函数 ， 它 是 所 有 模式 特征 的 线性 组 合 ， 即 
Pi = > was + wa (73) 





式 中 ，g;(X) 代 表 第 i 个 判别 函数 ; wi 是 系数 或 权 ; wa 为 常数 或 称 为 国 值 。 该 方程 在 二 维 空 
间 是 直线 ， 在 三 维 空间 是 平面 ， 在 NN 维 空间 则 是 超 平 面 。 
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若 对 第 i 类 模式 定义 n ARATE W, = (ol ,w;,…,w,)”， 则 判别 函数 可 写成 更 简洁 的 
形式 ， 即 
g(X) = WX + wo (74) 
任何 m 类 问题 都 可 以 分 解 为 (m -1) 个 二 类 识别 问题 ， 因 此， 二 类 线性 判别 函数 是 最 简 
单 和 最 基本 的 。 


7.1.2 Fisher 线性 判别 


Fisher 判别 是 一 种 应 用 得 极为 广泛 的 线性 分 类 方法 ， 其 基本 思想 是 : 把 d 维 空间 的 所 有 
模式 投影 到 一 条 过 原点 的 直线 上 ， 即 将 模式 的 维 数 压 缩 到 一 维 ， 并 要 求 同 一 类 型 的 样本 尽 可 
能 聚 在 一 起 ， 不 同类 型 的 样本 尽 可 能 地 分 开 。 

Fisher 线性 判别 分 析 (Fisher Discriminant Analysis，FDA) 算 法 是 R. A. Fisher F 1936 年 提 
出 的 一 种 旨 在 降低 特征 维 数 的 方法 。FDA 算法 是 有 监督 学 习 算 法 ， 其 目标 是 找到 线性 投影 
方向 (投影 轴 ) 使 得 训练 样本 在 这 些 轴 上 的 投影 结果 为 : 类 内 散 度 最 小 ， 类 间 散 度 最 大 。 换 
名 话说 ，FDA 算法 建立 了 一 个 子 空 间 ( 由 所 有 的 投影 轴 构 成 ) ， 所 有 样本 在 这 个 子 空间 内 满 
足 类 内 散 度 最 小 、 类 间 散 度 最 大 等 要 求 。 所 有 样本 在 这 些 投 影 轴 上 的 投影 系数 可 以 作为 样本 
的 特征 向 量 ， 利 用 这 些 特征 向 量 ， 就 可 以 进行 样本 的 分 类 识别 。 

l. 两 类 问题 

先 讨 论 简单 的 两 类 Fisher 线性 判别 分 析 。 

假设 有 一 组 n ^F d 维 的 样本 X，X,，…,X,， 它 们 分 属于 两 个 不 同 的 类 别 ， 其 中 大 小 
Kin, 的 样本 子 集 D, 属于 类 别 w ， 大 小 为 n 的 样本 子 集 D, 属于 类 别 wo WRX AX PAE 
个 成 分 作 线性 组 合 ， 就 得 到 点 积 ， 结 果 是 一 个 标量 

y WX (7-5) 
其 中 , W=(w,, w, 0, w) 是 线性 组 合 的 权重 。 

JURE, SABA n REA X,, XS, rns XL 就 产生 了 n 个 结果 y,，y,，…，y,， 相 应 地 属 
TREY, Yo MOU EDL, WAR || Wi 21, WAED y; 就 是 把 X; 向 方向 为 下 的 直线 进 
行 投影 的 结果 ， 环 的 幅 值 不 重要 ， 重 要 的 是 其 方向 。 因 为 ， 向 不 同方 向 的 直线 作 投影 ， 其 
产生 的 结果 在 可 分 程度 上 是 非常 不 同 的 。 如 果 属 于 类 别 o, 的 样本 和 属于 类 别 c, 的 样本 在 d 
维 空间 中 分 别 形成 两 个 显著 分 开 的 聚 类 ， 那 么 希望 投影 后 也 尽量 地 分 开 。 只 有 确定 了 最 佳 的 
直线 方向 ， 才 能 达到 最 好 的 分 类 效果 。 由 此 也 可 知道 ， 如 果 各 个 类 别 的 样本 在 原始 的 d 维 空 
间 就 是 不 可 分 的 ， 那 么 无 论 向 什么 方向 投影 都 无 法 产生 可 分 的 结果 ， 因 此 也 就 不 适合 用 线性 
判别 分 析 。 

下 面 讨论 如 何 确定 最 佳 的 直线 方向 不 。 一 个 用 来 衡量 投影 结果 的 分 量程 度 的 度量 是 样 
本 均值 的 差 。 如 果 u, 为 第 i 类 的 d 维 样本 均值 ， 则 有 







































































































































































1 
u; = —> X (7-6) 
Ti; Xe Dj 
则 投影 后 点 的 样本 均值 为 
1 1 
t= > ye WX Wu, (7-7) 
N; yeY; N; XeD; 





也 正好 是 原样 本 均值 u; 的 投影 ， 则 投影 后 的 点 的 两 类 样本 均值 差 为 
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| a, —a | =| W'(u, -u ) | (7-8) 
由 此 可 见 ， 通 过 改变 W 的 幅 值 ， 可 以 得 到 任意 大 小 的 投影 样本 均值 差 。 但 是 两 类 数据 的 投 
影 样本 均值 差 1 u, -u, | 的 大 小 并 不 能 完全 体现 两 类 数据 的 可 分 性 ， 如 图 7-1 所 示 。 当 投影 
到 x 轴 时 ， 投 影 样 本 均值 差 要 大 于 投影 到 y 轴 的 投影 样本 均值 差 .但 是 投影 到 轴 的 数据 可 
分 性 却 明 显 次 于 投影 到 y 轴 的 可 分 性 。 因 此 ， 还 需要 定义 类 内 散布 守 。 对 类 别 o, 的 类 内 散 
布 定 义 如 下 : 























G2 ~ \2 
Si = > (y- ui) (7-9) 
yey; 

6 4 

4 e 

MUI Lm Pe lal aia cix 
2: — -一 E 1 p.t : d i arn A L4] 4 
SEE 4 + +. 
$e ; err te F $ x i : NE- 

0 - ea ed 4 
n) 4 
_4 4 

1 1 1 
一 10 ej 0 5 10 15 





图 7-1 ”两 类 数据 的 投影 样本 均值 差 的 大 小 并 不 能 完全 体现 两 类 数据 的 可 分 性 











JW] (1/n) (St + 号 ) 就 是 全 部 数据 的 投影 总 体 方差 估计 ， 而 (Si + 呈 2 ) 称 作 投影 样本 的 总 类 内 散 
fi. Fisher 线性 可 分 准则 要 求 在 投影 y= WX 下， 要 使 得 准则 函数 JG) 最 大 化 ，Fisher 准则 








lü uud 
W) = ———— -10 
J(W) 748 (7-10) 
为 了 把 准则 函数 J) 写成 W 的 表达 式 ， 定 义 了 类 内 散布 矩阵 S; 和 总 类 内 散布 矩阵 Syo 
S; = D(X HOC nw)" (7-11) 
Sy =S, +5, (7-12) 
由 式 (7-5) 、 式 (7-7) 和 式 (7-9 ) 可 得 
Sp = X (WX -Wu 
去 2 -u;)(X A u;)'W 
= W'S.W (7-13) 
则 总 类 内 散布 样本 均值 之 差 可 以 展开 为 
(S +55) = W'S, W (7-14) 


类 似 地 ， 投 影 样本 均值 之 差 可 以 展开 为 
(ui = ù)’ = (W'u, - W'u,)* 
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= W(u, —u,)(u, -u)'W 
= W'S,W (7-15) 
其 中 
Sy = (u, —u,)(u, —u,)" (7-16) 
总 类 内 散布 矩阵 Sy EBB EAS EE AS TEREE, FP ALE SPR APR EXE RIS 24 n» d 
WI, S, 通常 非 奇 异 。Ss MPRA MS TA) BUR ME, HE RARE EA. NGHE, AEN K% 
JO) 可 以 写成 





























W'S,W 
W'S,W 
这 个 表达 式 在 数学 物理 中 是 经 常 使 用 的 ， 通 常 被 称 为 广义 的 瑞 利 商 。 容 易 证 明 ， 使 得 准 
则 函数 JO) 最 大 化 的 下 必须 满足 





J(W) = (7-17) 








S,W = A,S,W (7-18) 
如 果 Sy 是 非 奇 异 的 ， 就 能 得 到 
Sy SW = AW (7-19) 
此 时 ， 不 需要 真正 地 计算 出 Sr S, 的 特征 值 和 特征 向 量 ， 因 为 SW 总 是 位 于 (wi -u,) 的 方 
向 上 ， 因 此 准则 函数 JO) 最 大 时 ， 有 
W = Sy(u -u,) (7-20) 
这 个 Fisher 可 分 性 判 据 下 的 W 就 是 使 得 类 间 散 布 和 类 内 散布 的 比值 达到 最 大 的 线性 函数 。 
这 样 ， 问 题 就 由 一 个 d 维 问题 转化 为 一 维 问题 。 此 外 ， 真 正 实现 分 类 还 需要 一 个 病 值 准 
则 来 获得 最 终 的 分 类 器 ， 即 如 何 确定 阔 值 w。， 该 阐 值 就 是 在 一 维 空间 中 把 两 类 分 开 的 那个 
点 。 当 条 件 概率 密度 函数 P(x1 w) 是 多 元 正 态 函数 ， 且 各 个 类 别 的 协 方差 矩阵 互相 同时 ， 
可 以 直接 计算 这 个 阔 值 ， 此 时 最 优 判 决 准则 就 是 当 Fisher 线性 判别 超过 阔 值 时 ， 就 判 为 属于 
类 别 e, ， 否 则 就 判 为 属于 类 别 eos 。 
2. 多 类 问题 
将 两 类 问题 的 Fisher 线性 分 析 加 以 推广 ， 就 可 以 得 到 多 类 问题 的 Fisher 线性 分 析 。 
对 于 <c 类 问题 ， 就 需要 c -1 个 判别 函数 。 也 就 是 说 ， 从 4 维 空间 向 c -1 维 空间 投影 ， 
ABI d » c, 
WTE n 维 空间 R, 中 给 定 NEAR xp, ore, xy on, att ey w, EPAR A e 个 不 


同 的 类 别 ， 其 中 % 表示 第 i 类 的 第 j 个 样本 ,NN = > n, ， 为 了 衡量 数据 分 开 的 程度 ， 定 义 样 
本 的 类 内 散布 矩阵 Sy 和 类 间 散 布 矩 阵 S, 如 下 : 


















































Sy = » » -u)(x-u) (7-21) 
S, = Y nu, - u) (u; - u)" (7-22) 


i=l 


WP, c 为 类 别 数 ; n; Ac, 类 的 样本 数 ; u 为 c; 类 样本 的 均值 , u = (17n;) Y uu 为 所 有 








样本 的 均值 ,w = (LN) Y na iod 为 < 类 中 的 第 7 个 样本 。 
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M d 维 空间 向 c — 1 维 空间 投影 是 通过 下 面 的 c -1 个 分 类 方程 来 进行 的 : 
y = WX  iz1l,-,c-1 (7-23) 
Ky ocn, Xy 投影 后 得 到 了 新 的 样本 y,，…，yy， 这 些 新 的 样本 又 有 自己 的 均值 向 量 和 散布 
和 矩阵， 定义 如 下 : 


ae rae 
Uu; = —> y; (7-24) 
N; y=1 
TE (1:25) 
r) — n.u. - 
N = V^ 
E (i -ü)(y -ü) (7-26) 
i=l j=l 
S, = X nh - 0) (ù, i) (7-27) 
zt 
则 有 
Sy = W'S,W (7-28) 
Š, = W'S,W (7-29) 





我 们 的 目的 是 寻找 一 个 矩阵 WW， 使 得 在 某 种 意义 上 ， 类 间 离 散 度 和 类 内 离散 度 的 比值 
最 大 。 离 散 度 的 一 种 简单 的 标量 度量 是 散布 矩阵 的 行列 式 的 值 。 使 用 这 样 的 度量 方法 ,得 到 
了 如 下 的 Fisher 准则 函数 定义 为 

















|S, | | W'S,WI 
JW) = 一 二 argmax — a (7-30 ) 
ISl ~ | W'S,WI 
当 Fisher 准则 函数 取得 最 大 值 时 ，W, = [W,, Wo, «e, Woi l WEEK In] ES USE AIFS 


内 离散 度 的 比值 最 大 的 最 优 投影 方向 。 通 过 求解 下 面 广义 特征 方程 的 特征 值 问题 就 可 以 求 出 
最 优 投影 方向 ，[ 了 本 ， 瑟 ，…， 除 -器 即 广义 特征 方程 的 前 。 -1 个 最 大 特征 值 所 对 应 的 特征 
向 量 ， 即 














S,W, =ASyW, i =1,2,-,c¢-1 (7-31) 
上 式 在 S, 可 逆 时 ， 即 为 
S, S,W, = AW, i21,2,-,c-1 (7-32) 
求 出 特征 向 量 [ 本， 本 ，…， 取 -后 ， 就 可 确定 式 (7-23 ) 中 的 ec -1 PALA PRB, Hash 
(7-1) 可 知 ， 对 于 所 有 的 ;有 %(X) > y,0X) , WWHE X IH v; 类 。 


7.1.3 小 结 


通常 将 在 输入 变量 上 构造 线性 判别 函数 的 方法 称 为 线性 判别 分 析 ( Linear Discriminant A- 
nalysis, LDA) 。 线 性 判别 分 析 以 样本 的 可 分 性 为 目标 ， 寻 找 一 组 最 优 线性 变换 ， 使 得 所 有 类 
别 样本 经 过 线性 变换 后 ， 在 某 种 意义 上 类 间 分 离 性 最 大 、 类 内 相 异 性 最 小 。 

线性 判别 分 析 有 以 下 主要 特点 : 

© 引入 一 种 维 数 不 超 过 c -1 的 空间 变换 ， 其 中 < 是 需要 分 类 的 类 别 数量 。 

。 此 变换 的 数据 分 布 随意 ， 如 : 不 假设 数据 分 布 具 有 正 态 性 。 

e. 变换 后 的 坐标 轴 根 据 “ 判 别 重 要 性 ”来 确定 ， 可 以 取 那 些 最 重要 的 坐标 分 量 来 获得 数 
据 的 线性 表示 。 
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。 线性 判别 分 析 可 以 用 于 更 复杂 的 非 线性 分 类 器 的 后 期 处 理工 作 。 

线性 判别 分 析 是 模式 识别 中 最 经 典 的 方法 。 经 典 的 线性 判别 分 析 中 ， 一 般 使 用 的 是 
Fisher 判别 函数 。Fisher 判别 准则 是 : 不 同类 样本 尽 可 能 远 ， 同 类 样本 尽 可 能 近 。Michael 
J. Lyons 等 人 利用 弹性 图 标签 和 二 维 的 Gabor 特征 来 描述 人 脸 ， 利 用 线性 判别 分 析 (LDA) 对 
基于 高 级 属性 的 人 脸 进 行 分 类 ， 并 在 三 个 不 同 的 人 脸 库 中 ， 对 于 性 别 、 种 族 和 表情 的 分 类 任 
务 进行 了 测试 ， 证 明 线 性 判别 分 析 使 得 训练 简单 而 迅速 。 

由 前 面 的 Fisher 准则 函数 定义 可 知 ， 求 解 式 (7-31) 即 可 得 到 Fisher 准则 函数 的 最 优 解 。 
式 (7-31) 是 一 个 普通 的 矩阵 特征 值 ， 因 此 求解 比较 简单 。 但 在 一 般 情况 下 ,满足 S, pup 
条 件 不 易 获 得 ， 要 使 其 可 逆 ， 至 少 需 要 n+c 个 训练 样本 ,这 是 因为 R(S, ) <N-c, PUA 
S, Ww, WAn=R(S,)<N-c, BI N=n+c。 在 人 脸 识 别 中 ,这么 巨大 的 训练 样本 数 一 般 
是 很 难 满足 的 ， 也 就 是 S, 经 常 是 不 可 闭 的 ， 这 就 是 模式 识别 中 经 常 遇 到 的 所 谓 的 "小 样本 
问题 (Small Sample Size Problem，SSSP) ”， 对 于 人 脸 识别 的 应 用 而 言 , 由 于 通常 没有 足够 的 
训练 样本 来 保证 类 内 离散 度 和 矩阵 满 秩 ， 无 法 直接 求解 ， 因 此 需要 加 入 某 些 条 件 ， 并 采取 一 定 
的 策略 。 解 决 办 法 一 般 有 两 种 : 其 一 就 是 采用 和 矩阵 的 同步 对 角 化 原则 ， 具 体 分 析 S$, 和 S, 的 
特征 空间 求解 ， 如 Liu 等 个 提出 的 一 种 增强 的 线性 判别 (Enhanced Linear Discriminant) 方 
法 ， 就 是 通过 同步 对 角 化 s, AS, 的 方法 ， 避 免 对 S$, 直接 求 逆 ; 其 二 就 是 采取 图 像 的 预 降 
维 策略 ，Swets 等 人 "最 先 提出 结合 主 元 分 析 的 线性 判别 分 析 方法 ， 随 后 ，Belhumeur 等 人 把 
它 发 展 成 为 Fisherface 方法 。 但 是 无 论 是 采用 结合 PCA 预先 降 维 ， 还 是 采用 同步 对 角 化 的 方 
法 ， 都 是 以 牺牲 S, 的 零 空间 为 代价 的 ， 其 在 本 质 上 就 是 直接 驱除 S, 的 零 空间 。 从 Fisher ME 
则 的 角度 看 ， 这 样 做 将 丢失 很 多 有 利于 分 类 的 判别 信息 。Chen 等 人 "提出 了 一 种 新 的 方法 
来 解决 线性 判别 分 析 中 的 小 样本 问题 。 直 接 利用 S, 的 零 空 间 来 寻找 最 佳 判别 向 量 集 ， 这 里 
称 为 零 空 间 法 。 此 外 ， 参 考 文献 17] 提出 了 一 种 改进 的 基于 零 空 间 的 线性 判别 分 析 。 

一 般 应 用 线性 分 类 器 要 假设 不 同类 别 的 模式 空间 是 线性 可 分 的 ， 然 而 现实 中 许多 问题 都 
是 非 线性 可 分 的 ， 例 如 人 脸 识别 问题 中 ， 由 于 光照 、 姿 态 、 表 情 等 不 同 而 引起 的 人 脸 图 像 的 
差异 造成 人 脸 图 像 的 分 布 是 非 线性 的 和 复杂 的 ， 故 经 典 的 Fishe 线性 判别 分 析 在 处 理 类 似 人 
脸 等 图 像 识别 任务 时 ， 不 能 取得 令 人 满意 的 结果 ， 因 此 在 应 用 于 人 脸 识别 或 表情 识别 时 ， 人 
们 对 Fisher 线性 判别 分 析 进 行 了 各 种 改进 或 修正 的 研究 。 参 考 文献 [8 ] 提出 了 核 Fisher 判别 
分 析 ( Kernel Fisher Discriminant Analysis, KFDA) 。 它 是 将 该 学 习 方法 的 思想 与 Fisher 判别 分 
析 算 法 相 结合 的 产物 。KFDA 算法 的 思路 是 : 首先 通过 一 个 非 线 性 映射 ， 将 输入 数据 映射 到 
一 个 高 维 的 特征 空间 中 ， 然 后 在 这 个 高 维特 征 空间 中 进行 线性 Fisher 判决 分 析 ， 从 而 实现 相 
对 于 原 空间 为 非 线性 的 判决 分 析 。 


7.2 支持 向 量 机 


近年 来 ， 在 有 限 样 本 情况 下 的 机 器 学 习 理论 研究 逐渐 成 熟 起 来 ， 形 成 了 一 个 较 完 善 的 理 
论 体系 统计 学 习 理 论 (Statistical learning Theory, SLT) ， 并 在 统计 学 习 理 论 的 基础 上 发 展 
出 了 一 种 新 的 模式 识别 方法 一 一 文 持 向 量 机 (Support Vector Machine, SVM), Schr m BLA 
质 上 是 一 种 非 线 性 数据 处 理工 具 ， 甚 最 大 特点 是 根据 结构 风险 最 小 化 原则 ， 尽 量 提高 学 习 的 
泛 化 能 力 。 
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支持 向 量 机 方法 是 建立 在 统计 学 习 理 论 的 VC 维 ( Vapnik- Chervonenkis Dimension ) 理论 
和 结构 风险 最 小 原理 基础 上 的 ， 根 据 有 限 的 样本 信息 在 模型 的 复杂 性 [ 即 对 特定 训练 样本 的 
学 习 精 度 (Accuracy) | 和 学 习 能 力 ( 即 无 错误 地 识别 任意 样本 的 能 力 ) 之 间 寻 求 最 佳 折 中 ， 以 
期 获得 最 好 的 推广 能 力 (Generalizatin Ability) 。 


7.2.1 支持 向 量 机 基本 原理 


1. 线性 可 分 情况 

SVM 方法 是 从 线性 可 分 情况 下 的 最 优 分 类 面 (Optimal Hyperplane ) 发 展 而 来 的 。 所 谓 最 
优 分 类 面 就 是 要 求 分 类 线 不 但 能 将 两 类 样本 无 错误 n Oo 
地 分 开 ， 而 且 要 使 两 类 之 间 的 距离 最 大 。 图 7-2 所 
示 的 两 维 情况 可 以 说 明 其 基本 思想 。 图 中 实心 点 和 
空心 点 代表 两 类 样本 ,为 分 类 线 ，H, Ay 分 别 为 
过 各 类 中 离 分 类 线 最 近 的 样本 且 平 行 于 分 类 线 的 直 
线 ， 它 们 之 间 的 距离 叫做 分 类 间隔 ( Margin ) o Aris 
最 优 分 类 线 就 是 要 求 分 类 线 不 但 能 将 两 类 正确 分 开 
(训练 错误 率 为 0) ， 而 且 使 分 类 间隔 最 大 。 

设 线性 可 分 样本 集 为 (x;，y,), i=1，…, n, x 图 72 线性 可 分 情况 下 的 最 优 分 类 线 
ER’, ye | +1，-1| 是 类 别 标号 。d 维 空间 中 线性 判别 函数 的 一 般 形式 为 : g(x) = wx 
b, TRENEN 


























分 类 间隔 
=2/|| w || 




















w-xt+b=0 (7-33) 
UP, + 是 向 量 点 积 。 当 wz+bp>0, 和 =+l， 当 wxz+b<0, 和 = -1。 将 判别 函数 进 
行 归 一 化 ,使 两 类 所 有 样本 都 满足 1 g(x) | =1， 即 使 离 分 类 面 最 近 的 样本 的 1 g(x) 1 =1， 
这 样 分 类 间隔 就 等 于 2/ lw | ， 因 此 间隔 最 大 等 价 于 使 | w || (或 | w 1 ) 最 小 ; 而 要 求 分 类 
线 对 所 有 样本 正确 分 类 ， 就 是 要 求 其 满足 
yl(w:x) +6] -120 i=1,,n (7-34) 
因此 ,满足 上 述 条 件 且 使 w | 最 小 的 分 类 面 就 是 最 优 分 类 面 。 这 两 类 样本 中 离 分 类 面 最 
近 的 点 且 平 行 于 最 优 分 类 面 的 超 平面 上 的 训练 样本 ， 也 就 是 使 式 (7-34) 中 等 号 成 立 的 那些 样 
本 ， 叫 做 支持 问 量 (Support Vector) 。 
使 分 类 间隔 最 大 ， 实 际 上 就 是 对 推广 能 力 的 控制 ， 这 是 SVM 的 核心 思想 之 一 。 统 计 学 
习 理 论 指出 ， 在 维 空间 中 ,， 设 样本 分 布 在 一 个 半径 为 R 的 超 球 范围 内 ， 则 满足 条 件 
| w 4 的 正则 超 平面 构成 的 指示 函数 集 f(x,w,b) = sgn| Ow * x) +b} (sgn( ) 为 符号 函数 ) 
的 VC 维 满足 下 面 的 界 : 









































h < min([R°A?],N) +1 (735) 
因此 使 | w |^ 最 小 就 是 使 VC 维 的 上 界 最 小 ， 从 而 实现 结构 风险 最 小 化 (SRM ) 准则 中 对 函 
数 复杂 性 的 选择 。 
根据 上 面 的 讨论 ， 最 优 分 类 面 问题 可 以 表示 成 如 下 的 约束 优化 问题 ， 即 在 式 (7-34) 的 约 
RF, RAŽ 








$o) = Swe (7-36) 
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fj^] VE, HEDRA ne, Te A BA GET ORAE. LA at H RF 


Q; > 0;i = 2al , 得 
1 n 
L(w,b,a) swaps o;ly,Ow * x; +b) - 1] (7-37) 


Rsk (7-36) 的 极 小 值 就 是 对 w A b s prf dH eR BCA IME. PTL X w 和 ”的 最 小 值 为 
w^ Fb, RIT a 的 最 大 值 为 a o RLI w 入 的 偏 微分 ， 并 令 其 等 于 0， 可 得 到 对 应 的 
o 和 w 为 








w = Yofys (78) 
经 过 变换 ， 线 性 可 分 的 原 问题 可 转化 为 对 偶 问 题 。 在 约束 条 件 
Y =0 0 Sb (7-39) 
es au eee 
Qla) = Yay 一 POOE . x;) (7-40) 


在 这 类 约束 优化 问题 的 求解 和 分 析 中 ，Karush-Kuhn-Tucher(KKT) 条 件 将 起 重要 作用 ， 

如 式 (7-38 ) 这 样 的 问题 ， 其 解 必须 满足 
a,{y(wex, +6) -1} =0 i= 1,2,-+-,n (7-41) 
JASK(7-38) 可 以 看 出 ， 只 有 系数 a >0 的 样本 对 w 起 作用 ， 即 只 有 支持 向 量 影响 最 终 
的 划分 结果 。 
求解 上 述 问 题 后 得 到 的 最 优 分 类 函数 是 



































f(x) = sen{(w* +x) «b^ | = sen] > a y Gr - X) +} (7-42) 
式 中 ，sgn( ) 为 符号 函数 ; 07 FEAR BMA, PYAR ERPS SCF IS] REAR x; 用 下 式 求 得 
b =y,-wex, (743) 





或 通过 两 类 中 任意 一 对 支持 向 量 取 中 值 求 得 。 对 于 给 定 的 未 知 样本 x， 只 需 计 算 f(x) , TR 
45 f(x) 的 符号 即 可 判定 x 所 属 的 分 类 。 

2. 线性 不 可 分 情况 

由 于 在 实际 情况 中 ， 不 存在 精确 的 分 类 超 平 面 ，Vapnik 通过 引入 正 的 松弛 因子 £; 来 构 
造 “ 软 边缘 "分 类 面 ， 允 许 错 分 样本 的 存在 。 于 是 ， 求 取 最 优 分 类 面 的 二 次 规划 问题 就 转变 
为 在 条 件 y[(w x) +b) -14£ 20, i=l, ,于 和 所 >=0 下 最 小 化 Bl 


owe) = Ivi? «c(&) (744) 


AF, p 为 将 输入 特征 向 量 映 射 到 茶 个 高 维特 征 空 间 的 非 线 性 变换 函数 ;C 为 正常 数 ， 代 表 
对 错 分 样本 的 惩罚 力度 ， 即 在 边缘 之 内 的 样本 对 分 类 面 的 构造 引起 的 作用 是 有 限制 的 ， 这 就 


FE" BOR” RUE Mo ROE, Wolfe 对 偶 问题 可 以 写成 在 条 件 > ya =0 和 0 <a,<C;i=1, 
…,n 下 的 最 大 化 ; 即 















































n 1 n 
Q(a) = > a; 一 aayy; K(x; x; ) (745) 
i=l Dj 


式 中 , K(x, x) 为 核 函数 。 由 于 求 最 大 值 可 以 转化 为 取 负 求 最 小 值 ， 这 一 数学 模型 最 终 表 达 
为 在 条 件 > ya =0 和 0 <a, < C ES Lon 
minWolfe(w) = ya -[1,1,:-:,1],o (746) 


式 中 , 是 一 个 半 正 定 的 对 称 阵 [yy KO) ij 。 最 终 推导 所 得 的 Wolfe 对 偶 问 题 与 可 
分 的 情况 类 似 ， 唯 一 的 区 别 在 于 对 o; 加 了 一 个 上 限 限制 。 这 种 软 边缘 分 类 面 对 于 非 线 性 支 
持 向 量 机 同样 适用 ， 使 得 支持 向 量 机 可 以 普遍 适用 于 各 种 模式 识别 问题 。 

3. 支持 向 量 机 

对 于 维 空间 中 的 线性 函数 ， 其 VC 维 为 N+1， 但 根据 式 (7-35 ) 的 结论 , TE || w || «A 
的 约束 条 件 下 ， 其 VC 维 可 能 大 大 减 小 ， 即 使 在 十 分 高 维 的 空间 中 ， 也 可 以 得 到 较 小 VC 维 
的 函数 集 ( 比如 参考 文献 [9 ] 中 介绍 了 在 107 维 空间 中 取得 VC 维 在 10 左右 的 分 类 面 的 例 
子 ) ， 以 保证 有 较 好 的 推广 性 。 同 时 可 以 看 到 ， 通 过 把 原 问题 转化 为 对 偶 问 题 ， 计 算 的 复杂 
度 不 再 取决 于 空间 维 数 ， 而 是 取决 于 样本 数 ， 尤 其 是 样本 中 的 支持 向 量 数 。 这 些 特 点 使 有 效 
地 对 付 高 维 问题 成 为 可 能 。 

对 非 线 性 问题 ， 可 以 通过 非 线 性 变换 转化 为 某 个 高 维 空间 中 的 线性 问题 ， 在 变换 空间 求 
最 优 分 类 面 。 这 种 变换 可 能 比较 复杂 ， 因 此 这 种 思路 在 一 般 情况 下 不 易 实现 。 但 是 注意 到 ， 
在 上 面 的 对 偶 问题 中 ， 不 论 是 寻 优 函数 式 (7-40) ， 还 是 分 类 函数 式 (742) ， 都 只 涉及 训练 样 
本 之 间 的 内 积 运 算 (x;: x;) ， 这 样 在 高 维 空间 实际 上 只 需 进 行内 积 运算 ， 而 这 种 内 积 运 算是 
可 以 用 原 空 间 中 的 函数 实现 的 ， 甚 至 没有 必要 知道 变换 的 形式 。 根 据 泛 函 的 有 关 理 论 ， 只 要 
一 种 核 函数 (x; x ) 满 足 Mercer 条 件 ， 它 就 对 应 某 一 变换 空间 中 的 内 积 。 

因此 ， 在 最 优 分 类 面 中 ， 采 用 适当 的 内 积 函 数 K(x, x) 就 可 以 实现 某 一 非 线 性 变换 后 
的 线性 分 类 ， 而 计算 复杂 度 却 没有 增加 ， 此 时 目标 函数 式 (7-40 ) 变 为 


n 1 n 
Q(a) = 党 Qi 一 ee Qi yy K(x : x) (747) 
iei zl 


而 相应 的 分 类 函数 也 变 为 







































































fo) = snd S ary KG x) b! | (7-48) 





这 就 是 支持 向 量 机 。 

构造 类 型 判别 函数 的 学 习 机 称 为 支持 向 量 机 ， 在 支持 向 量 机 中 构造 判别 函数 的 复杂 性 取 
决 于 支持 向 量 的 数目 ， 而 不 是 特征 空间 的 维 数 。 因 此 支持 向 量 机 中 形成 的 分 类 函数 是 一 组 以 
支持 向 量 为 参数 的 非 线性 函数 的 线性 组 合 ， 分 类 函数 的 表达 式 仅 和 支持 向 量 的 数量 有 关 ， 而 
独立 于 空间 的 维度 。 在 处 理 高 维 输入 空间 的 分 类 时 ， 这 种 方法 尤其 有 效 。 图 7-3 所 示 为 支持 
向 量 机 的 结构 示意 图 。 

4. GBR 

支持 向 量 机 的 基本 思想 可 以 概括 为 : 首先 通过 非 线 性 变换 ， 将 输入 空间 变换 到 一 个 高 维 
空间 ， 然 后 在 这 个 新 空间 中 求 取 最 优 线性 分 类 面 ， 而 这 种 非 线 性 变换 是 通过 定义 适当 的 内 积 
函数 实现 的 。 常 用 的 核 函数 有 以 下 儿 种 : 

(1) 多 项 式 核 函数 ”多 项 式 核 函数 为 
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xl x2 xd 


图 7-3 支持 向 量 机 结构 示意 图 


K(x,x) = [(x,x,) +1]? (7-49) 
所 得 到 的 是 d 阶 多 项 式 分 类 器 。 
f(x,a) = sign ( Y vex ^x 1]! - b) (7-50) 


support vector 


(2) BAKA 48 EA PRG T A 


|x -x; | 
KC]x ox, = exp{ - 


E | (7-51) 





对 于 任何 o (EL, HEE PRE K,( |x — x, D 是 一 个 非 负 的 单调 函数 。 当 |x -x | 训练 样本 
数 趋向 于 无 穷 大 时 ， 它 趋向 于 零 。 
经 典 的 径 向 基 力 数 使 用 下 面 的 判别 规则 : 


fx) = sign ( Y læ ox D -6) (7-52) 
Je, ERY K, |x -x 取决 于 两 个 向 量 之 间 的 距离 。 构 造 式 (7-52) 的 判别 规则 ， 


必须 估计 : 

1) 参数 的 er 值 ; 

2) 中 心 点 x; BAN; 

3) 描述 中 心 点 向 量 x;; 

4) 参数 的 值 ao 

与 传统 的 径 向 基 函 数 方法 的 重要 区 别 是 ， 这 里 每 个 基 泡 数 的 中 心 点 对 应 一 个 支持 向 量 ， 
中 心 点 本 身 和 输出 权 值 都 是 由 支持 向 量 机 训练 算法 来 自动 确定 的 。 

(3) Sigmoid 核 函 数 ” 支 持 向 量 机 采用 Sigmoid 函数 作为 内 积 核 函 数 ， 就 实现 了 包含 一 个 
隐 层 的 多 层 感 知 机 。 隐 层 节 点 数目 由 算法 自动 确定 。 满 足 Mercer 条 件 的 Sigmoid 核 函 数 为 

K(x,x;) = tanh ( yx; x; 4 b) (7-53) 
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7.2.2 SVM 分 类 器 的 设计 


基本 的 SVM 是 针对 两 类 的 分 类 问题 ， 为 实现 对 NV 个 类 别 的 识别 ， 需 对 SVM 进行 推广 。 
对 于 多 类 模式 识别 问题 ，SVM 可 通过 两 类 问题 的 组 合 来 实现 。 通 常 有 以 下 几 种 组 合 策略 。 

1. 一 对 多 分 类 器 (One-against-all Classifier ) 

其 基本 思想 是 把 某 一 种 类 别 的 样本 当 作 一 个 类 别 ， 剩余 的 其 他 类 别 的 样本 当 作 另 一 个 类 
别 ， 这 样 就 变 成 了 一 个 两 类 分 类 问题 。 该 方案 需要 设计 上 个 两 类 分 类 器 ， 每 个 分 类 器 用 于 将 
某 类 模式 与 其 他 类 分 开 ， 即 以 某 个 类 别 的 样本 为 正 例 ， 以 其 他 类 别 的 样本 为 反例 ， 确 定 开 个 
判别 函数 ， 如 下 式 所 示 : 















































D(x) = 2, ety KG) +b j= 1,2, (7-54) 


RP, n, 为 第 j 个 分 类 器 的 训练 样本 数 。 
x 最 后 归 为 有 最 大 决策 值 的 第 IZ, W 
l = arg maxDi(x) (7-55) 


HE DS 0 UD Gy eh 0. s Tele Pea ses d 

这 种 分 类 方案 所 构成 的 两 类 问题 是 很 不 对 称 的 ， 即 训练 集中 的 负 类 样本 要 比 正 类 样本 多 
得 多 。 

2. 一 对 一 分 类 器 (One-against-one Classifier ) 

其 具体 做 法 是 ， 在 多 类 别 中 任意 抽取 两 类 进行 两 两 配对 ， 转 化 为 两 类 问题 进行 训练 学 
习 ， 因 此 又 称 为 配对 分 类 器 。 选 取 第 i 类 数据 和 第 j 类 数据 构造 一 个 分 类 器 ， 其 中 i<j( 设 i 
AE, j 为 负 例 ) ， 这 样 需要 训练 kk - 1)/2 个 分 类 器 ， 所 对 应 的 上 - 1)72 个 判别 函数 
如 下 式 : 











"j 
D,(«) = sgn | > ad, (x, Xr) +b'| i=l, 2, Ut, k;j-l, 2, Ut, k; i<j 
h=1 


(7-56) 





式 中 ,为 区 分 第 i 个 与 第 j 个 类 的 分 类 器 所 使 用 的 训练 样本 数 。 

在 分 类 识别 时 ， 利 用 所 构造 的 多 个 SVM 进行 综合 判断 ， 一 般 可 采用 投票 方式 确定 样本 
所 属 类 别 。 若 D;(x) =+1 ， 则 判断 * 属于 第 ;类 ， 第 ;类 的 票数 加 1; 反之 , 第 j 类 的 票数 
加 1。x 最 后 归 为 拥有 最 多 票数 的 类 。 

3. 决策 树 分 类 器 

决策 树 分 类 器 利用 二 叉 决策 树 来 构成 。 二 叉 树 的 每 个 叶 节 点 对 应 一 个 类 别 ， 每 个 度 为 2 
的 非 叶 节点 对 应 一 个 子 SVM 分 类 器 。 所 以 决策 树 共有 大 个 时 节点 , k-14 T SVM 分 类 器 ， 
Bl {SVM; Eizo FER, 38 i 个 子 分 类 器 SVM; 用 于 区 分 第 ;类 与 剩余 的 第 ?+1，7+2，…， k 
个 类 ， 并 将 第 i 个 类 所 对 应 的 样本 标记 为 正 例 ， 其 他 样本 标记 为 反例 。 对 每 一 级 SVM 训练 
后 找 出 对 应 该 级 的 支持 向 量 ， 建 立 最 优 分 类 超 平 面 。 在 新 样本 分 类 识别 时 ， 只 需 按 照 二 又 树 
由 高 到 底 ( 即 由 根 节点 开始 ) 进行 搜索 ， 就 可 得 出 识别 结果 。 


7.2.3 小 结 












































支持 向 量 机 (SVM) 是 一 种 泛 化 能 力 很 强 的 分 类 器 。 它 在 解决 小 样本 、 非 线性 及 高 维 
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模式 识别 问题 方面 表现 出 了 许多 特有 的 优势 ， 其 最 大 特点 是 根据 结构 风险 最 小 化 原则 ， 尽 量 
提高 学 习 的 泛 化 能 力 ， 即 由 有 限 的 训练 集 样本 得 到 的 小 误差 ， 仍 能 够 保证 对 独立 测试 集 的 小 
的 误差 。 男 外 ， 由 于 支持 向 量 机 算法 是 一 个 是 优化 问题 ， 因 此 局 部 最 优 解 一 定 是 全 局 最 优 
解 ， 可 防止 过 学 习 ， 就 可 以 避免 神经 网 络 结构 选择 和 局 部 极 小 点 问题 。 它 的 基本 思想 可 以 概 
括 为 : 对 于 非 线性 可 分 样本 ， 首 先 通过 非 线性 变换 ， 将 输入 空间 变换 到 一 个 高 维 空间 ， 然 后 
在 这 个 新 空间 中 求 取 最 优 线性 分 界面 ， 而 这 种 非 线 性 变换 是 通过 定义 适当 的 内 积 函 数 K(x， 
x,) 来 实现 的 。 

对 于 表情 识别 问题 ， 面 临 着 样本 集 不 够 大 的 困扰 ， 特 别 是 对 于 不 同类 别 的 表情 ， 训 练 样 
本 数目 往往 有 较 大 的 差别 。 毕 竟 让 人 类 标准 地 表达 各 类 表情 ， 并 不 是 很 轻松 容易 的 事情 。 因 
为 基于 心理 学 理论 ， 表 情 库 中 各 类 面部 表情 的 表现 ， 往 往 要 实验 者 经 过 专门 的 训练 和 学 习 ， 
才能 准确 有 效 地 展现 。 所 以 将 支持 向 量 机 理论 用 于 表情 的 识别 ， 是 很 有 实际 意义 的 ， 既 可 以 
解决 非 线性 分 类 的 问题 ， 又 适合 小 样本 、 高 维 的 模式 分 类 问题 ， 是 非常 值得 研究 和 重视 的 。 

实际 利用 支持 向 量 机 算法 进行 人 脸 特 征 分 类 或 表情 分 类 时 ， 需 要 考虑 以 下 三 个 方面 的 问 
题 : 

1) 确定 多 类 别 支 持 向 量 机 分 类 方法 。 

2) 核 函 数 的 选择 。 在 采用 支持 向 量 机 对 人 脸 或 表情 分 类 时 ， 必 须 首 先 对 SVM 进行 模型 
选择 ， 即 首先 确定 核 削 数 类 型 。 

3) 模型 参数 C RI y 的 选择 。 

关于 SVM 的 研究 表明 ， 特 征 空间 的 维 数 与 SVM 的 复杂 度 没 有 直接 关系 ， 核 参数 影响 数 
据 在 特征 空间 分 布 的 复杂 程度 ， 误 差 惩罚 参数 C 通过 调整 给 定 特征 空间 中 经 验 误差 的 水 平 
来 影响 学 习 机 器 推广 能 力 ， 这 两 种 参数 的 影响 是 同时 存在 的 ， 只 有 综合 考虑 ， 才 能 得 到 性 能 
最 优 的 SYM。 因此， 确定 了 核 函 数 后 ， 必 须 对 两 个 未 知 参数 C 和 y 进行 选择 ， 使 得 SVM 能 
做 出 准确 的 分 类 。 

其 中 ， 误 差 惩罚 参数 C 的 作用 是 ， 在 确定 的 数据 子 空间 中 调节 学 习 机 器 置信 范围 和 经 
验 风险 的 比例 ， 以 使 学 习 机 器 的 推广 能 力 最 好 ， 不 同 数据 子 空间 中 最 优 的 C 不 同 。 在 确定 
的 数据 子 空间 中 ,C 的 取 值 小 表示 对 经 验 误 差 的 惩罚 小 ， 学 习 机 器 的 复杂 度 小 而 经 验 风险 值 
BR; 反之 亦 然 。 前 者 称 为 “ 欠 学 习 ” 现 象 ， 而 后 者 则 称 为 “过 学 习 ”。 每 个 数据 子 空间 
中 至 少 存在 一 个 合适 的 C， 使 得 SVM 推广 能 力 最 好 。 当 C 超过 一 定 值 时 ，SVM 的 复杂 度 达 
到 了 数据 子 空间 允许 的 最 大 值 ， 此 时 经 验 风险 和 推广 能 力 几乎 不 再 变化 。 

由 统计 学 习 理 论 可 以 知道 ， 在 训练 分 类 器 时 ， 不 能 一 味 追 求 经 验 风 险 最 小 〈 即 训练 误 
差 最 小 ) ， 那 样 势必 造成 分 类 器 过 训练 ， 使 得 分 类 器 推广 误差 比较 差 。 因 此 ， 在 训练 分 类 器 
时 ， 可 以 采用 交叉 验证 的 方法 ， 把 训练 样本 集 分 成 互 不 相交 的 两 部 分 : 其 一 作为 常规 的 训练 
集 ， 用 于 调整 SVM 参数 ; 其 二 是 验证 集 (Valitation Set) ， 用 于 评价 SVM 的 推广 误差 。 实 际 
E, 常常 首先 给 出 (C，y) 一 个 大 概 的 取 值 范围 ， 对 其 中 的 每 一 对 〈C，y) 取 值 ， 再 分 别 
采用 交叉 验证 方法 进行 训练 SVM， 这 样 可 得 到 一 组 较 优 参数 值 。 

在 参考 文献 [13] P, Philipp Michel 等 人 将 22 个 面部 特征 点 的 位 移 作为 SVM 的 输入 ， 
比较 了 三 种 内 积 函数 对 于 6 种 基本 表情 的 分 类 效果 ， 发 现 径 向 基 核 的 表现 明显 好 于 为 外 两 个 
核 ， 其 对 静态 图 像 数 据 的 表情 识别 准确 率 达 到 了 87. 9% 。 另 外 ， 参 考 文献 [14] 中 ， 首 先 将 
ICA (独立 分 量 分 析 ) 分 解 与 SVM 分 类 器 相 结 合 而 用 于 表情 识别 ， 发 现 其 效果 优 于 传统 的 
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贝 叶 斯 分 类 器 ; 接着 又 对 原始 人 脸 图 像 进行 一 系列 的 Gabor 变化 ， 将 获得 的 新 的 特征 作为 
SVM 的 分 类 器 和 输入， 得 到 了 更 好 的 识别 结果 。 参 考 文献 [15] 中 ， 也 将 Gabor 变换 与 SVM 分 
类 絮 相 结合 ， 利 用 经 过 人 脸 检 测 器 定位 过 的 图 像 块 作为 原始 输入 ， 将 表情 最 终 分 为 七 类 ， 并 
达到 了 91.4% 的 准确 率 。 在 参考 文献 [16 ] 中 ， 作 者 用 一 对 多 策略 设计 SVM 分 类 器 ， 青 与 最 
邻近 分 类 法 结合 用 于 人 脸 识 别 。 参 考 文献 [17 ] 提 出 了 两 种 用 支持 向 量 机 进行 分 类 的 人 脸 识 
别 系统 ， 并 测试 比较 了 对 姿势 变化 的 鲁 棒 性 。 

虽然 以 统计 学 习 理 论 作为 坚实 的 理论 依据 的 SYM 有 很 多 优点 ， 如 基于 结构 风险 最 小 化 ， 
克服 了 传统 方法 的 过 学 习 和 陷入 局 部 最 小 的 问题 ， 具 有 很 强 的 泛 化 能 力 ; 采用 核 函 数 方法 ， 
向 高 维 空间 映射 时 ， 并 不 增加 计算 的 复杂 性 ， 又 有 效 地 克服 了 维 数 灾难 问题 。 但 同时 也 要 看 
到 目前 研究 的 一 些 局 限 性 : CD SVM 的 性 能 很 大 程度 上 取决 于 核 函数 的 选择 ， 但 没有 很 好 的 
方法 可 指导 对 具体 问题 的 核 函 数 的 选择 ; QD 训练 和 测试 SVM 的 速度 和 规模 是 男 一 个 问题 ， 
尤其 是 对 实时 控制 问题 ， 速 度 是 一 个 对 应 用 很 大 限制 的 因素 ; O BVA SVM 理论 仅 讨论 具有 
固定 惩罚 系数 的 情况 ， 而 实际 上 正 负 样本 的 两 种 误 判 往往 造成 损失 是 不 同 的 ， 等 等 。 
































7.3 NHA 


7.3.1 概述 


贝 叶 斯 统计 源 于 英国 学 者 贝 叶 斯 (Bayes) 撰写 发 表 (1763 年 ) 的 一 篇 具有 哲学 性 的 论 
文 《An essay towards solving a problem in the doctrine of chances (关于 几率 性 问题 求解 的 评 
论 )》， 后 来 发 展 形成 了 贝 叶 斯 学 派 。 基 于 有 向 无 环 图 的 概率 模型 是 由 遗传 学 家 Sewall Wright 
在 1921 年 提出 的 。 在 认 知 科学 和 人 工 智能 领域 中 称 之 为 贝 叶 斯 网 络 (Bayesian Network, 
BN) 。 贝 叶 斯 网 络 在 20 世纪 70 年 代 后 期 得 到 了 初步 的 发 展 。1988 年 ，Judea Pearl fr 252 
发 展 前 人 工作 的 基础 上 ， 正 式 提 出 了 贝 叶 斯 网 络 ; 80 年 代 贝 叶 斯 网 络 用 于 专家 系统 的 知识 
表示 ; 90 年 代 进 一 步 研究 可 学 习 的 贝 叶 斯 网 络 ， 用 于 数据 采 据 和 机 器 学 习 ; 90 年 代 ， 有 效 
的 推理 和 学 习 算 法 的 出 现 ， 推 动 了 贝 叶 斯 网 络 的 发 展 和 应 用 ， 首 先 获得 应 用 的 是 决策 专家 系 
统 。 近 年 来 ， 贝 叶 斯 学 习 理论 方面 的 文章 更 是 层出不穷 ， 内 容 涵 盖 了 人 工 智 能 的 大 部 分 领 
J, 包括 因果 推理 、 不 确定 性 知识 表达 、 模 式 识别 和 夷 类 分 析 等 ， 并 且 出 现 了 专门 研究 贝 叶 
斯 理论 的 组 织 和 学 术 刊 物 ISBA (国际 贝 叶 斯 分 析 协 会 ) 。 

目前 国外 许多 学 者 和 研究 机 构 (微软 公司 、 惠 普 公 司 、 丹 麦 的 奥 尔 堡 大 学 ， 美国 的 斯 
坦 福 大 学 、 加 利 福 尼 亚 大 学 、 哥 伦比 亚 大 学 ， 澳 大 利 亚 的 黄 纳 什 大 学 等 ) 都 在 对 贝 叶 斯 网 
络 进行 深入 的 研究 。 这 些 研究 主要 集中 在 以 下 几 个 方面 : 贝 叶 斯 网 络 推理 、 贝 叶 斯 网 络 学 
习 、 贝 叶 斯 网 络 构建 、 贝 叶 斯 网 络 应 用 。 这 些 研 究 都 取得 了 丰硕 的 成 果 ， 正 逐步 走向 实际 应 
用 。 在 国内 ， 清 华 大 学 对 贝 叶 斯 网 络 学 习 、 贝 叶 斯 网 络 推理 及 其 在 数据 挖掘 等 方面 的 应 用 进 
行 了 研究 ; 中 国 科 学 院 对 贝 叶 斯 网 络 学 习 过 程 和 推理 机 制 进行 了 研究 ， 并 对 主动 贝 叶 斯 网 络 分 
类 器 及 其 应 用 进行 深入 的 探讨 ; 重庆 大 学 在 贝 叶 斯 网 络 学 习 与 推理 方法 方面 也 进行 了 研究 。 

贝 叶 斯 网 络 (BN) 是 一 种 对 概率 关系 的 有 向 图 解 描 述 ， 是 用 于 不 确定 性 和 概率 性 事物 ， 
应 用 于 有 条 件 的 依赖 多 种 控制 的 决策 。 在 解决 许多 实际 问题 中 ， 需 要 从 不 完全 ( 即 已 知 数 
据 不 充分 ) 的 、 不 精确 的 或 不 确定 的 知识 和 信息 中 作出 推理 。 而 贝 叶 斯 网 络 是 一 种 概率 推 
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理 技术 ， 它 使 用 概率 理论 来 处 理 在 描述 不 同 知识 成 分 之 间 的 条 件 相关 而 产生 的 不 确定 性 ， 它 
提供 了 一 种 将 知识 知觉 的 图 解 可 视 化 的 方法 。 


7.3.2 贝 叶 斯 网 络 概 率 基 础 


L 统计 概率 
知 在 大 量 重复 试验 中 ， 事 件 4 发 生 的 频率 稳定 地 接近 于 一 个 固定 的 常数 P， 它 表明 事件 
A 出 现 的 可 能 性 大 小 ， 则 称 此 常数 p 为 事件 4 REEK, W PCA) ， 即 

















p = P(A) (7-57) 
可 见 概率 就 是 频率 的 稳定 中 心 。 任 何事 件 4 的 概率 为 不 大 于 1 的 非 负 实数 ， 即 
0 < P(A) «1 (7-58 ) 


2. 条 件 概率 
人 们 把 事件 8 已 经 出 现 的 条 件 下 ,事件 4 发 生 的 概率 记 做 为 P(4B) 。 并 称 之 为 在 B 出 
现 的 条 件 下 A 出 现 的 条 件 概率 ， 而 称 P(A) 为 无 条 件 概 率 。 








3. 加 法 定理 
两 个 不 相 容 ( 互 斥 ) 事 件 之 和 的 概率 ， 等 于 两 个 事件 概率 之 和 ， 即 
P(A +B) = P(A) + P(B) (7-59) 
AA, B 为 两 任意 事件 ， 则 
P(A+B) = P(A) +P(B) - P(AB) (7-60) 


4. 乘法 定理 
设 4、8 为 两 个 任意 的 非 零 事件 ， 则 其 乘积 的 概率 等 于 4A( 或 B) 的 概率 与 在 A( 或 B) 出 
现 的 条 件 下 B( 或 4) 出 现 的 条 件 概 率 的 乘积 。 
P(A+B) = P(A)P(BIA) (7-61) 
或 
P(A+B) = P(B)P(AIB) (7-62) 
5. 贝 叶 斯 网 络 的 概率 解释 
o 任何 完整 的 概率 模型 必须 具有 表示 (直接 或 间接 ) 该 领域 变量 联合 分 布 的 能 力 。 完 全 
的 枚 举 需 要 指数 级 的 规模 (相对 于 领域 变量 个 数 ) 。 
e 贝 叶 斯 网 络 提供 了 这 种 联合 概率 分 布 的 紧凑 表示 : 分 解 联合 分 布 为 几 个 局 部 分 布 的 
乘积 : 








P(xi ,Xs,**,X,) = [| PG | Pa) (7-63 ) 
e 从 公式 可 以 看 出 ， 需 要 的 参数 个 数 随 网 络 中 节点 个 数 呈 线性 增长 ， 而 联合 分 布 的 计 
算 呈 指数 增长 。 
e 网 络 中 变量 间 独 立 性 的 指定 是 实现 紧凑 表示 的 关键 。 这 种 独立 性 关系 在 通过 领域 专 
家 构造 贝 叶 斯 网 中 特别 有 效 。 
7.3.3 贝 叶 斯 网 络 的 构建 


l. 贝 叶 斯 网 络 定义 
贝 叶 斯 网 络 又 称 为 信念 网 络 ， 是 一 种 图 形 化 的 模型 ， 能 够 图 形 化 地 表示 一 组 变量 间 的 联 
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合 概率 分 布 函数 。 贝 叶 斯 网 络 由 两 部 分 定义 : 一 个 结构 模型 和 一 组 与 之 相关 的 条 件 概 率 分 布 
函数 。 

结构 模型 是 一 个 有 向 无 环 图 ， 其 中 每 个 节点 代表 一 个 随机 变量 ， 是 对 于 过 程 、 事 件 、 状 
态 等 实体 的 某 特性 的 描述 ， 变 量 可 以 是 联系 的 ， 也 可 以 是 离散 的 。 弧 则 表示 变量 间 的 概率 依 
赖 关 系 ， 如 果 一 条 弧 由 节点 Y 到 Z， 则 了 是 Z 的 双亲 或 直接 前 驱 ， 而 Z 是 Y 的 后 继 。 图 中 两 
节点 间 若 存在 着 一 条 弧 ， 则 表示 与 这 两 个 节点 相对 应 的 随机 变量 是 概率 相依 的 ， 反 之 则 说 明 
这 两 个 随机 变量 是 相对 独立 的 。 

在 贝 叶 斯 网 络 结构 中 ， 任 一 节点 x 均 和 非 x 的 父 节 点 的 子 节点 的 各 节点 相对 独立 。 网 络 
中 任 一 节点 x 均 有 一 个 相应 的 条 件 概 率 表 ( Conditional Probability Table，CPT) ， 用 以 表示 节 
点 x 在 其 父 节 点 取 各 可 能 值 时 的 条 件 概 率 。 若 节点 x 无 父 节点 ， 则 x 的 CPT 为 其 先 验 概率 分 
布 。 

图 7-4 所 示 为 一 个 简单 的 贝 叶 斯 网 络 模 型 。 它 有 5 个 节点 4;(i = 1,2,…,5) 和 5 PME 
L (i = 1,2,…,5) 组 成 。 图 中 没有 输入 的 4 节点 称 为 根 节 点 ， 一段 弧 的 起 始 节 点 称 为 其 未 
节点 的 母 节点 ， 而 后 者 称 为 前 者 的 子 节点 。 

下 面 给 出 关于 贝 叶 斯 网 络 的 严格 定义 。 

WX = [X XXn] 是 值 域 U 上 的 nn 
个 随机 变量 ， 则 值 域 VU 上 的 贝 叶 斯 网 络 BN 
(Bs, Bp), ， 其 中 : 

1) Bs 是 一 个 定义 在 上 的 有 向 无 环 图 
(DAG)r , XX 是 该 有 问 无 环 图 上 的 节点 集 , E 
Er 的 边 集 。 如 果 存 在 一 条 节点 SIUS X, 
的 有 向 边 ， 则 称 X; EX, 的 父 节 点 , X X, 
的 子 节 点 。 记 X; 的 所 有 父 节 点 为 Pa。 

2) Bp ={PCX,| Pa,) | X e X| X} FX m 
的 每 个 节点 ， 定 义 了 一 组 条 件 概 率 分 布 函 数 
P(X, | Pa;) , 即 给 定 一 个 有 向 无 环 图 r 和 一 个 离散 变量 集合 X = faye, | 上 的 联合 概率 分 
布 P， 如 果 r 可 以 代表 了， 即 在 X 中 的 变量 和 r 的 节点 之 间 存 在 一 一 对 应 的 关系 ， 使 得 P 可 
以 进行 如 下 的 递归 乘积 分 解 : 

































































图 74 简单 的 贝 叶 斯 网 络 模 型 








p(X) = [ps | Pa;) (7-64) 


AF, Pa, 是 图 r PX, 的 父 节 点 。 将 图 r 和 概率 分 布 的 联合 称 为 贝 叶 斯 网 络 。 
2. 贝 叶 斯 网 络 的 构建 方法 
以 下 为 建立 贝 叶 斯 网 络 的 步 又 : 
(1) 确定 为 建立 模型 有 关 的 变量 及 其 解释 
1) 确定 模型 的 目标 ， 即 确定 问题 相关 的 解释 ; 
2) 确定 与 问题 有 关 的 可 能 的 观测 值 ， 并 确定 其 中 值得 建立 模型 的 子 集 ; 
3) 将 这 些 观测 值 组 织 成 互 不 相 容 的 且 穷 尽 所 有 状态 的 变量 ,这样 的 结果 不 是 唯一 的 。 
(2) 建立 一 个 表示 条 件 独立 的 有 向 无 环 图 根据 概率 乘法 公式 有 
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p(x) = J] pl Misty pet ar) 
i=l 


= p(x, )p(%, | x )pGx, | x2, ) pO, | ux nux) (7-65) 

对 于 每 个 变量 x, WRAREFRI, S lesa) 使 得 %; II; 是 条 件 独立 的 ， 即 对 
IEX, A 

P(x, l Xi 1) = pla; l T) i =1,2,,n (7-66) 


则 由 式 (7-65) 和 式 (7-66) 可 得 p(x) = [[ p(x 1 m) BEREC, Tay ns 11.) AEF 


父 节 点 (Pa ，Pa,，…，Pa,)， 故 又 可 写成 p(x) = [|p(wi1 Pai)。 为 了 决定 贝 叶 斯 的 结构 ， 


需要 : 人 @) 将 变量 ，x,，… ,x;_1 按 某 种 次 序 排序 ; O 决定 满足 式 (7-66 ) 的 变量 集 []; (i = 
1,2,…,n)。 从 理论 上 说 ， 从 nn 个 变量 中 找 出 适合 条 件 独 立 的 顺序 ， 因 为 需要 比较 n! 种 变量 
顺序 。 因 此 ， 会 造成 组 合 爆炸 问题 。 不 过 ， 在 实际 问题 中 ， 通 常 可 以 确定 因果 关系 ， 且 因果 
关系 一 般 都 对 应 于 条 件 独立 。 所 以 ， 可 以 从 原因 变量 到 结果 变量 画 一 个 带 箭头 的 弧 来 直观 地 
表示 变量 之 间 的 因果 关系 。 

(3) 指定 局 部 概率 分 布 p(xi1 Pa) 当 变 量 为 离散 变量 时 ， 需 要 为 每 个 变量 的 父 节点 的 
各 个 状态 指定 一 个 概率 分 布 。 

注意 ， 以 上 三 步 可 能 是 交叉 进行 的 ， 不 是 简单 的 顺序 进行 可 以 完成 的 。 

构建 贝 叶 斯 网 络 分 类 器 有 两 种 方法 : 第 一 种 是 首先 选择 网 络 的 结构 ， 然 后 确定 图 中 节点 
变量 之 间 的 依赖 关系 ; 第 二 种 方法 是 确定 特征 变量 的 分 布 。 特 征 变量 可 以 是 离散 的 ， 这 种 情 
况 下 的 分 布 是 概率 质量 函数 ， 特 征 变量 也 可 以 是 连续 的 ， 这 种 情况 下 就 必须 选择 一 个 分 布 函 
数 ， 常 见 的 是 高 斯 分 布 函数 。 这 两 种 方法 都 需要 确定 参数 集 G6， 因为 它 决 定 了 上 面 决 策 方程 
所 需要 的 分 布 。 

贝 叶 斯 网 络 学 习 就 是 寻找 一 个 能 最 好 匹配 一 个 给 定数 据 训练 集 的 网 络 的 过 程 。 这 个 网 络 
包含 一 个 有 向 无 环 图 (DAG ) 结构 和 与 DAG 中 每 个 节点 相关 的 条 件 概 率 表 (CPT) ， 因 此 贝 叶 
斯 网 络 学 习 包 括 学 习 网 络 结构 和 学 习 条 件 概率 表 。 

3. 学 习 贝 叶 斯 网 络 的 条 件 概率 表 

通常 在 应 用 中 ， 由 领域 专家 给 出 随机 变量 的 因果 图 ， 就 可 以 得 到 贝 叶 斯 网 络 结构 ， 而 要 
给 出 众多 变量 的 CPT， 对 领域 专家 就 非常 难 了 ， 因 此 在 实际 应 用 领域 中 ， 学 习 CPT 更 具有 
意义 。 由 于 贝 叶 斯 网 络 是 变量 的 联合 概率 分 布 的 图 形 表示 ， 所 以 CPT 学 习 可 以 归结 为 统计 
学 中 的 参数 估计 问题 ， 因 此 CPT 学 习 方法 可 以 分 为 两 大 类 : 基于 经 典 统计 学 的 学 习 和 基于 
贝 叶 斯 统计 学 的 学 习 。 

用 于 贝 叶 斯 网 络 学 习 的 样本 训练 集 可 以 表达 为 C = 1C ,CC ,其 中 C= {V = 
va, V = op = vi,| 表示 所 有 变量 构成 的 向 量 LV, ,VW ,… ,V1 的 实例 。 如 果 一 个 实例 中 
各 个 变量 取 值 确定 ， 则 称 为 一 个 完整 实例 ， 否 则 为 不 完整 实例 。 由 完整 实例 构成 的 样本 训练 
集 称 为 完整 训练 库 ， 否 则 称 为 不 完整 训练 库 。 假 设 变量 组 V = [VV ,V1 的 联合 概率 分 
布 编码 于 某 个 网 络 结构 $ 中 ， 则 


p(vl 8,,9*) = |] po:l Pa,,6,,8") (7-67) 
i=l 
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xh, 0; 为 分 布 P( | Pa;,0,,5) 的 参数 向 量 ; 0, 为 参数 组 19, ，0,，…，0,| 的 向 量 ; S 为 
联合 分 布 可 以 满足 网 络 的 条 件 独 立 性 假设 。 那 么 ， 条 件 概率 表 的 学 习 问 题 就 可 以 表示 为 对 给 
定 样本 训练 集 C， 计 算 后 验 分 布 p(9.1 C,S"). 

假设 变量 V 是 离散 的 ， 有 7 个 可 能 的 取 值 wv，vi ，…，， 每 个 局 部 分 布 函数 是 一 组 多 
项 分 布 的 集合 ， 一 个 分 布 对 应 于 Pa; 的 一 个 状态 ， 也 就 是 假定 

Pe Pai,0;,S’) = Oe >0 (sd uy SL ae k=1,2,.,7) (7-68) 
RP, Pai, Pa;, se, Pati 表示 Pa, W q 个 取 值 状态 , q; = tt r, 4810, = ( (On) fo) fi BB 























BO in 没有 列 人 是 因为 Oi Ed Dp 。 为 方便 起 见 ， 定义 参数 向 量 0; 5 (Bin ,0pP sOi) 0 
给 定局 部 分 布 函 数 ， 需 要 有 以 下 两 个 假设 ,才能 以 封闭 的 形式 计算 后 验 分 布 p(9.1 C,S ) ; 
1) 样本 训练 集 C 是 完整 的 ; 
2) 参数 向 量 0, 是 相互 独立 的 ， 即 
P(41S) = [T [61S) (7-69) 


这 就 是 参数 独立 假设 。 在 以 上 两 个 假设 下 ， 对 于 给 定 的 随机 样本 训练 集 C， 参 数 仍然 保持 独 
立 ， 即 











n di 
p(8,1 6,87) = [| | [56,1 6,8") (7-70) 
t= JE 


于 是 可 以 独立 地 更 新 每 一 个 参数 向 量 9。 假 设 每 一 个 参数 向 量 9; 有 先 验 Dirichlet 分 布 
Dir( 0; 1 opnyap，… or)， 则 得 到 后 验 分 布 为 
p(0,1 C,S') = Dir(6;l ap + Ny dio + Nia ott Gir, + Nix) (7-71) 

RP, Nid CP V; 2v H Pa; = Pal 的 样本 数目 。 到 此 就 获得 了 贝 叶 斯 网 络 的 条 件 概 率 参 
数 。 

当 样 本 训练 集 不 完整 时 ， 一 般 要 运用 近似 方法 ， 目 前 主要 有 Monte-Carlo 方法 、Gaussian 
逼近 、EM( 期 望 极 大 化 ) 算 法 等 。 尽 管 有 这 些 成 熟 的 算法 ， 但 计算 开销 是 比较 大 的 。 

4. 学 习 贝 叶 斯 网 络 的 结构 

当 无 法 给 出 或 确定 贝 叶 斯 网 络 的 结构 ， 而 且 有 足够 的 样本 数据 时 ， 需 要 学 习 贝 叶 斯 网 络 
结构 。 对 于 由 nn 个 变量 构成 的 贝 叶 斯 网 络 来 说 ， 由 nn 个 节点 构成 的 所 有 有 问 无 环 图 都 可 能 作 
为 贝 叶 斯 网 络 的 结构 。Robinson 于 1977 年 发 表 的 研究 结果 表明 ， 这 种 结构 的 数目 随 变 量 关 
增加 而 指数 增长 ， 因 此 可 能 的 DAG 结构 非常 庞大 。 学 习 贝 叶 斯 网 络 的 结构 ， 就 是 通过 分 析 
样本 数据 集合 ， 从 大 量 的 结构 中 选 出 最 适合 的 网 络 结构 。 一 般 需 要 首先 定义 一 个 关于 结构 的 
测度 ， 再 分 别 计算 出 各 个 可 能 结构 的 测度 值 ， 从 中 选取 测度 值 最 优 的 结构 作为 贝 叶 斯 网 络 结 
构 。 常 用 的 测度 有 两 个 : 基于 贝 叶 斯 统计 的 BDE (Bayesian Dirichlet Likelihood Equivalence , 
贝 叶 斯 狄 利克 雷 似 然 等 价 ) 测 度 和 基于 编码 理论 的 最 小 描述 长 度 (Minimal Description Length , 
MDL) 测 度 。 

首先 ， 假 设 网 络 结构 是 可 以 改进 的 ， 定 义 一 个 离散 变量 表示 对 于 网 络 结构 的 不 确定 性 ， 
其 状态 对 应 于 可 能 的 网 络 结构 S*， 并 赋予 先 验 概率 分 布 p(5*)。 对 于 给 定 的 样本 集 C， 计 算 
后 验 概率 分 布 P(S | C) 和 p(9.1C,S”)。 其 中 ,后 者 的 计算 方法 与 上 节 类 似 ， 前 者 的 计算 在 
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原理 上 是 简单 的 ， 因 为 

p(S*1C) =p(S*1 C)/p(C) = p(S")p(C1 S*)7p(C) (7-72) 
式 中 ,p(C) 是 一 个 与 结构 无 关 的 正规 化 常数 ;p( C1 SU) 是 边界 似 然 。 于 是 确定 网 络 结构 的 后 
验 分 布 ， 只 需要 为 前 一 个 可 能 的 结构 计算 数据 的 边界 似 然 。 

在 无 约束 多 项 分 布 、 参 数 独立 、 采 用 Dirichlet 先 验 和 数据 完整 的 前 提 下 ， 参 数 向 量 9, 可 
以 独立 地 更 新 。 数 据 的 边界 似 然 正好 等 于 每 一 个 i-j 对 来 R 

Ee J I [| ORTAM ) jJ EAM Nd 
该 公式 首次 由 Cooper 和 Herskovits 于 1992 年 给 出 。 

在 一 般 情 况 下 , 个 变量 的 可 能 的 网 络 结构 数目 大 于 以 为 指数 的 函数 。 逐 一 排除 这 些 
假设 是 困难 的 ， 可 以 使 用 两 个 方法 来 处 理 这 个 问题 :“ 模 型 选择 "和 ” 方法 。 
前 一 个 方法 是 从 所 有 可 能 的 模型 (结构 假设 ) 中 选择 一 个 “好 的 模型 ”， 并 把 它 当 作 正 确 的 模 
型 。 后 一 个 方法 是 从 所 有 可 能 的 模型 中 选择 合理 数目 的 “好 模型 ” ， 并 认为 这 些 模型 代表 了 
所 有 人 情况。 关于 “好 的 模型 ” 已 有 一 些 不 同 的 定义 和 相应 的 计算 方法 (例如 使 用 评分 函数 ) 。 
若干 研究 者 的 工作 表明 ， 使 用 贪 禁 搜索 法 选择 单个 好 的 假设 通常 会 得 到 准确 的 预测 。 使 用 
Monte- Carlo 方法 进行 模型 平均 有 时 也 很 有 效 ， 甚 至 可 以 得 到 更 好 的 预测 。Hecherman F 
1995 年 提出 ， 在 参数 独立 、 参 数 模块 性 、 似 然 等 价 以 及 机 制 独立 、 部 件 独立 等 假设 成 立 的 
前 提 下 ， 可 以 将 学 习 非 因果 贝 叶 斯 网 络 的 方法 用 于 因果 贝 叶 斯 网 络 的 学 习 。 

贝 叶 斯 网 络 学 习 的 目标 是 ， 找 到 和 样本 数据 匹配 度 最 好 的 贝 叶 斯 网 络 结构 ， 根 据 观察 由 
叶 斯 网 络 的 视角 不 同 ， 还 可 以 把 贝 叶 斯 网 络 结构 的 学 习 方 法 分 成 两 类 : 基于 搜索 评分 (Based 
on Scoring) 的 方法 和 基于 条 件 独 立 性 ( Based on Conditional Independence) 的 方法 。 基 于 搜索 
评分 的 方法 把 贝 叶 斯 网 络 看 成 是 含有 属性 之 间 联 合 概 率 分 布 的 结构 ， 学 习 的 目的 是 搜索 与 数 
据 拟 合 最 好 的 结构 。 一 般 的 做 法 是 给 出 评价 网 络 结 构 的 评分 函数 (如 贝 叶 斯 后 验 概 率 、 最 小 
描述 长 度 和 Kullback- Leiber 信 等 )。 基 于 条 件 独立 性 的 方法 把 贝 叶 斯 网 络 看 作 是 编码 了 变量 
间 独 立 性 关系 的 结构 。 学 习 的 目的 是 根据 独立 性 关系 (如 卡 方 检验 ) 对 变量 分 组 。 


7.3.4 贝 叶 斯 网 络 推理 算法 


推理 是 从 给 定 的 证 据 中 得 到 一 个 新 判断 的 思维 形式 。 贝 叶 斯 网 络 推理 是 利用 其 表达 的 条 
件 独立 性 ， 快 速 计算 竺 求 概率 值 的 过 程 。 
条 件 独 立 性 假设 是 贝 叶 斯 网 络 进行 定量 推理 的 理论 基础 。 有 了 这 个 假设 ， 就 可 以 减少 先 
验 概率 的 数目 ， 简 化 计算 和 推理 过 程 。 贝 叶 斯 网 络 的 条 件 独立 性 假设 的 一 个 很 重要 的 判 据 就 
是 著名 的 D 分 隔 (D-separation ) 定理 。 先 来 看 看 这 个 定理 , 设 4、B、C 为 网 络 节 点 中 三 个 不 
同 的 子 集 ， 当 且 仪 当 4 与 C 间 不 存在 以 下 情况 的 路 径 时 ， 称 B 隔离 了 4 和 C， 记 为 <4 
| BI C» D: 所 有 含有 聚合 弧 段 的 节点 或 其 子 节 点 是 B BUR; 其 他 节点 不 是 B 的 元 素 。 
同时 满足 以 上 两 个 条 件 的 路 径 称 作 激活 (Active ) 路 径 ， 否 则 叫 作 截 断 (Blocked ) 路 径 。 
这 个 判 据 指 出 ， 如 果 B 隔离 了 4 和 C 时 ， 那 么 可 以 认为 4 与 C 是 关于 B 条件 独立 的 ， 即 
P(AI C,B) = P(AI B) (7-74) 
有 了 条 件 独立 性 假设 就 可 以 大 大 简化 网 络 推理 计算 。 但 是 ， 与 其 他 形式 的 不 确定 性 推理 
方法 一 样 ， 贝 叶 斯 网 络 推理 仍然 需要 给 出 许多 先 验 概 率 ， 它 们 是 根 节 点 的 概率 值 和 所 有 子 节 
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点 在 其 母 节点 给 定 下 的 条 件 概 率 值 。 这 些 先 验 概 率 ， 可 以 是 由 大 量 历 史 的 样本 数据 统计 分 析 
得 到 的 ， 也 可 以 是 由 领域 专家 长 期 的 知识 或 经 验 总 结 主观 给 出 的 ， 或 者 是 根据 具体 情况 由 事 
先 假 设 给 定 的 。 

与 其 他 算法 一 样 ， 贝 叶 斯 网 络 推 理 算法 大 致 也 可 分 为 精确 算法 和 近似 算法 两 大 类 。 理 论 
上 ， 所 有 类 型 的 贝 叶 斯 网 络 都 可 以 用 精确 算法 来 进行 概率 推理 。 但 Cooper 指出 ， 贝 叶 斯 网 
络 中 的 精确 概率 推理 是 一 个 NP 难题 。 对 于 一 个 特定 拓扑 结构 的 网 络 ， 其 复杂 性 取决 于 节点 
数 。 所 以 ， 精 确 算法 一 般 用 于 结构 较为 简单 的 单 联 (Single Connected) 网 络 。 对 于 解决 一 般 
性 的 问题 ， 人 们 不 希望 它 是 复杂 的 多 项 式 。 因 而 ,许多 情况 下 都 采用 近似 算法 。 它 可 以 大 大 
简化 计算 和 推理 过 程 ， 虽 然 它 不 能 够 提供 每 个 节点 的 精确 概率 值 。 

目前 主要 的 推理 算法 主要 有 如 下 四 类 : 多 树 传 播 (Polytree Propagation) 算法 、 团 树 传 
播 (Clique Tree Propagation) 算法 、 图 约 简 (Graph Reduction) 算法 、 组 合 优化 ( Combina- 
torial Optimization) 算法 。 

1. 多 树 传播 算法 

多 树 传播 算法 的 主要 思想 是 给 贝 叶 斯 网 络 中 的 每 一 个 节点 分 配 一 个 处 理 机 ， 每 一 个 处 理 
机 利用 相 邻 节点 传递 来 的 消息 和 存储 于 该 处 理 机 内 部 的 条 件 概 率 表 进行 计算 ， 以 求 得 自身 的 
后 验 概率 〈 信 度 ) ， 并 将 结果 向 其 余 相 邻 节 点 传播 。 在 实际 计算 中 ， 贝 叶 斯 网 络 接收 到 证 据 
以 后 ， 证 据 节点 的 后 验 概 率 值 发 生 改 变 ， 该 节点 的 处 理 机 将 这 一 改变 向 它 的 相 邻 节点 传播 ; 
相 邻 节点 的 处 理 机 接收 到 传递 来 的 消息 后 ， 重 新 计算 自身 的 后 验 概 率 ， 然 后 将 结果 向 自己 其 
余 的 相 邻 节点 传播 ， 如 此 继续 下 去 ， 直 到 证 据 的 影响 传 遍 所 有 的 节点 为 止 。 在 多 连通 图 
( 即 至 少 在 两 个 节点 间 存 在 不 止 一 条 通路 ) 的 情况 下 ， 由 于 消息 传递 的 双向 性 ， 使 得 消息 会 
在 无 向 环 路 中 循环 传播 而 无 法 进入 稳 态 ， 得 不 到 最 终结 果 。 为 此 ， 许 多 学 者 提出 了 各 种 弥补 
的 办 法 ， 如 条 件 (Conditioning) 方法 、 节 点 集成 (Node Aggregation) 方法 、 星 形 分 离 (Star 
Decomposition) 方法 。 这 些 方法 的 主要 思想 都 是 对 原 贝 叶 斯 网 络 进行 变换 ， 将 其 由 多 连通 的 
拓扑 结构 变换 为 单 连通 的 拓扑 结构 ， 然 后 再 利用 多 树 传播 算法 进行 计算 ， 最 后 对 计算 的 结果 
进行 处 理 ， 以 还 原 为 待 求 概率 值 。 

2. 团 树 传播 算法 

团 树 传播 算法 采用 了 男 一 种 图 形 表 达 方 式 来 表达 联合 概率 分 布 。 该 方法 所 对 应 的 图 形 结 
构 是 一 棵 无 向 树 一 一 团 树 。 基 于 团 树 的 推理 计算 也 采用 了 消息 传递 的 思想 。 在 实际 推理 时 ， 
当 接收 到 证 据 以 后 ， 所 有 包含 证 据 节 点 的 团 节 点 内 各 个 变量 的 联合 概率 函数 值 (以 下 简称 4 
函数 值 ) 将 发 生变 化 。 该 变化 将 向 团 树 中 的 所 有 团 节 点 传播 ， 以 改变 这 些 节 点 中 的 函数 值 。 
该 算法 由 于 所 对 应 的 图 形 结构 是 一 棵 树 ， 因 此 不 会 出 现 多 树 传播 算法 在 多 连通 情况 下 消息 往 
复 传播 的 问题 。 当 系统 达到 稳 态 后 ， 对 函数 值 进行 边缘 化 计算 就 可 以 求解 得 到 等 求 概率 值 。 
采用 该 方法 进行 推理 的 第 一 步 ， 就 是 首先 构造 一 棵 团 树 ， 目 前 有 几 种 方法 ， 通 常 采 用 连接 树 
(Junction Tree) 构造 方法 〈 称 由 这 种 方法 构造 的 团 树 传播 算法 为 连接 树 传 播 算 法 ) 。 同 多 树 
传播 算法 一 样 ， 团 树 传播 算法 采用 在 图 形 结构 上 的 消息 传播 机 制 进 行 运算 。 消 息 从 每 一 个 接 
收 到 证 据 的 团 节 点 开始 ， 向 图 上 的 其 他 节点 传播 ， 在 传播 过 程 中 ， 每 次 计算 只 使 用 相 邻 节 点 
的 9 函数 值 。 

3. 图 约 简 算 法 

图 约 简 算法 是 Shachter 于 1988 年 提出 的 一 种 贝 叶 斯 网 络 推理 算法 ， 它 直接 利用 图 形 结 
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构 ， 采 用 了 节点 消 元 的 方式 来 模拟 边缘 概率 的 计算 。 其 基本 思想 是 ， 逐 步 删 除非 证 据 节点 中 
无 子 节点 的 节点 〈 可 以 直接 删除 的 节点 所 必须 满足 的 条 件 ) ， 直 到 网 络 中 只 剩 下 感 兴趣 的 节 
点 为 止 。 对 于 不 满足 删除 条 件 的 节点 ， 可 以 对 网 络 结构 进行 变换 。 

4. 组 合 优 化 算法 

前 面 的 三 类 方法 都 是 利用 了 图 形 结构 以 寻求 局 部 化 的 计算 过 程 ， 而 组 合 优化 算法 则 是 直 
接 针对 联合 概率 分 布 的 组 合 爆炸 问题 ， 提 出 解决 方案 。 其 主要 思想 是 ， 首 先 利用 链 规则 和 条 
件 独立 性 ， 将 联合 概率 分 布 分 解 为 一 系列 条 件 概 率 表 的 乘积 ; 然后 在 符号 层面 上 ， 对 公式 进 
行 交 换 ， 改 变 求 和 时 节点 的 消 元 顺序 以 及 求 和 运算 与 乘积 运算 的 先后 秩序 ， 以 达到 减少 求 和 
与 乘积 运算 量 的 目的 ; 最 后 按照 变换 后 的 公式 进行 逐步 的 乘积 和 求 和 和 运算， 以 得 到 待 求 结 
R, 目前 这 类 方法 主要 有 符号 概率 推理 (Symbolic Probabilistic Inference, SPI) 方法 和 桶 消 
去 (Bucket Elimination) 方法 。 

以 上 所 介绍 的 贝 叶 斯 网 络 推理 算法 都 没有 摆脱 显 式 求 和 的 计算 方式 ， 其 计算 量 都 是 随 着 
节点 数 的 增多 而 呈 指 数 增长 ， 但 有 各 自 的 特点 。 其 中 ， 团 树 传播 算法 基于 了 一 个 更 简单 的 图 
形 结构 一 一 树 ， 其 灵活 性 和 适应 面 都 比较 好 。 一 些 其 他 图 形 结构 的 推理 ， 如 影响 图 (Influ- 
ence Diagram) 推理 也 转换 到 团 树 上 进行 。 目 前 针对 该 方法 更 进一步 提出 了 一 些 加 速 推 理 的 
措施 ， 比 如 惰性 传播 (Lazy Propagation) 方法 。 在 实际 应 用 中 ， 连 接 树 传播 算法 应 用 较为 广 
es 

5. 贝 叶 斯 网 络 近似 推理 算法 

尽管 贝 叶 斯 网 络 以 其 坚实 的 概率 理论 基础 以 及 有 效 性 而 被 认为 是 目前 最 好 的 不 确定 推理 
方法 之 一 ， 但 由 于 结构 复杂 的 贝 叶 斯 网 络 推理 计算 是 一 难题 ， 对 贝 叶 斯 网 络 推理 的 研究 重心 
转向 了 近似 推理 算法 的 研究 。 目 前 已 经 提出 了 多 种 近似 推理 算法 ， 主 要 分 为 两 大 类 : 基于 仿 
真 的 方法 和 基于 搜索 的 方法 。 这 些 算法 都 采取 一 定 的 方式 ， 在 运行 时 间 和 推理 精度 上 寻求 一 
个 折 中 ， 力 求 在 较 短 的 时 间 内 得 到 一 个 满足 精度 要 求 的 结果 。 基 于 仿真 的 方法 是 基于 Monte- 
Carlo 方法 的 基本 思想 ， 使 用 了 一 个 包含 随机 数 发 生 器 的 采样 装置 ， 根 据 需要 产生 一 组 样本 。 
然后 通过 对 样本 的 处 理 ， 而 不 是 直接 利用 联合 概率 分 布 进行 计算 ， 以 得 到 待 求 概率 的 近似 
值 。 另 一 类 近似 算法 是 基于 搜索 的 方法 ， 由 于 概率 问题 是 一 类 组 合 问题 ， 所 以 可 以 将 所 需要 
计算 的 各 个 变量 的 不 同 组 合 看 作 一 个 状态 空间 ， 状 态 空间 中 的 某 些 状态 对 最 后 的 计算 结果 会 
产生 较 大 的 影响 ， 而 另外 一 些 状态 则 影响 甚 微 。 由 此 ， 可 以 通过 启发 式 搜索 的 方法 在 整个 状 
态 空间 中 进行 搜索 ， 以 寻找 到 那些 对 计算 结果 影响 较 大 的 状态 。 然 后 以 这 些 影响 较 大 的 状态 
代替 整个 状态 空间 参与 运算 ， 以 达到 提高 计算 效率 的 目的 ， 并 且 在 计算 结束 时 能 够 给 出 一 个 
较 精 确 的 解答 。 
虽然 永远 不 可 能 找到 一 个 多 项 式 时 间 复 杂 度 的 贝 叶 斯 网 络 推理 算法 ， 但 是 对 于 实际 的 贝 
叶 斯 网 络 ， 总 可 以 通过 简化 或 通过 各 种 方法 的 结合 找到 适合 的 推理 算法 。 
7.3.5 贝 叶 斯 网 络 分 类 器 

贝 叶 斯 网 络 分 类 器 是 基于 贝 叶 斯 网 络 所 建构 的 分 类 器 。 建 立 贝 叶 斯 网 络 分 类 器 可 以 被 分 
为 两 个 子 阶 段 : 第 一 阶段 ， 网 络 拓扑 学 习 ， 即 有 向 非 循环 图 的 学 习 ( 简称 结构 学 习 ) ， 利 用 
贝 叶 斯 网 络 的 学 习 算法 , 从 实例 数据 建立 由 所 有 属性 变量 和 类 变量 构成 的 贝 叶 斯 网 结构 ; 第 
二 阶段 ， 网 络 中 每 个 变量 的 局 部 条 件 概率 分 布 的 学 习 〈 简称 参数 学 习 ) ， 采 用 贝 叶 斯 网 络 的 
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推理 算法 计算 给 定 属性 变量 的 值 ， 获 得 类 变量 的 最 大 后 验 概率 。 

1. 贝 叶 斯 网 络 分 类 模型 

贝 叶 斯 分 类 模型 是 一 种 典型 的 基于 统计 方法 的 分 类 模型 。 贝 叶 斯 定理 是 贝 叶 斯 理论 中 最 
重要 的 一 个 公式 ， 是 贝 叶 斯 学 习 方法 的 理论 基础 。 它 将 事件 的 先 验 概率 与 后 验 概 率 巧妙 地 联 
系 起 来 ， 利 用 先 验 信息 和 样本 数据 信息 确定 事件 的 后 验 概 率 。 

令 U = 141,4,,…,4,,C| 是 离散 随机 变量 的 有 限 集 ， 其 中 4 ，4 +, A, 是 属性 变量 
类 变量 C 的 取 值 范 围 为 jc ，c cn. cjo a; 是 属性 4, WEE. KAX, = la, 
(字母 X Zo I8] 8) BPE e; 的 概率 可 由 贝 叶 斯 定理 表示 为 

P(a,,a,,*,a,l 6) Pe) 


P(c; | a,,05,77,a0,) = 







































































二 P i P ; mS , | : 
P(a, ,a; on) LEG eae ete G) 


(7-15) 
AP, a 是 正则 化 因子 ; PCo;) 是 类 e; 的 先 验 概 率 ; Pc; | aa, a) 是 类 6 的 后 验 概 率 。 
先 验 概率 独立 于 训练 样本 数据 ， 而 后 验 概 率 反 映 了 样本 数据 对 类 c; 的 影响 。 依 据 概率 的 链 
规则 ， 式 (7-75 ) 可 以 表示 为 
P(c, | 94,0» jud.) = aP(c¢;) I Pla; | 0, ,05 ，“…)0Xi-l ,6;) (7-76 ) 
给 定 训练 数据 集 D = (x, ,x ,…,%, ) ,分 类 任务 的 目标 是 对 数据 集 D 进行 分 析 ， 确 定 一 
个 映射 函数 了 : (A, A; UC A,) => C, 使 得 对 任意 的 未 知 类 别 的 实例 X; = | a, ,02 yv san | 可 标 
以 适当 的 类 标签 C”。 
根据 贝 叶 斯 最 大 后 验 准则 ， 给 定 某 一 实例 X= (aa, aa) WMAP ai He PE iG 
验 概率 P(c | ay ,as,… ,4 ) 最 大 的 类 标签 C ”作为 该 实例 的 类 标签 ， 即 












































C' = arg max aPl(c,) | | PCa, | al @y ,95550,336;) (7-77 ) 
cje (61,02, en} ;TI 


先 验 概率 Pc) 反映 了 已 经 拥有 的 关于 类 分 布 的 背景 知识 ， 如 果 这 个 背景 知识 难以 得 
到 ， 那 么 可 以 简单 地 将 每 一 候选 假设 赋予 相同 的 先 验 概率 ， 即 认为 所 有 的 类 服从 均匀 分 布 。 
确定 先 验 概率 的 另 一 种 方式 是 ， 采 用 训练 数据 中 每 个 类 的 概率 分 布 近似 代替 先 验 概 率 。 

目前 ,不 同 贝 叶 斯 分 类 模型 的 区 别 就 在 于 ， 
它们 以 不 同 的 方式 来 求 PCa; | apa, yai, 
cj) o Dl 叶 斯 分 类 模型 的 关键 就 是 如 何 计 算 
P(ajla,,a5,7:,a,/,,0) o F Ili Ar 28 JL PP H Bl A 
用 的 贝 叶 斯 网 络 分 类 器 。 

2. 朴素 贝 叶 斯 分 类 器 
朴素 贝 叶 斯 (Naive Bayes, NB) 分 类 器 可 以 
看 作 是 限制 条 件 最 严格 的 贝 叶 斯 网 络 分 类 模型 TS 机 素 由 叶 斯 分 类 模型 示意 图 
( 见 图 7-$) 。 在 朴素 贝 叶 斯 分 类 模型 中 ， 假 定 特征 向 量 的 各 个 属性 变量 间 相 对 于 类 变量 是 相 
互 独立 的 ， 也 就 是 属性 变量 完全 独立 地 作用 于 类 变量 。 

在 属性 独立 性 假设 条 件 下 ， 条 件 概 率 PCa; | a, ,4s,…,ai1,6) 简化 为 P(w | 6) ， 因 此 
在 朴素 贝 叶 斯 分 类 器 中 ， 实 例 匀 = [a ,a,,…,a,1 属于 类 < 的 概率 可 表示 为 
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Pryp(e; | d,,05,'7,0,) = aP(c;) |] PCa, | 6) (7-78) 
Cip = argmax aP(c;) [I PCa 1 c;) (7-79) 
相对 于 其 他 分 类 方法 ， 朴 素 贝 叶 斯 分 类 器 的 最 大 特点 是 不 需要 假设 空间 的 搜索 ， 只 需 舍 








计 类 先 验 概 率 和 类 条 件 概 率 。 一 种 简单 的 估计 方法 是 ， 从 训练 数据 中 ， 计 算 待 分 类 实例 中 各 
个 属性 值 在 训练 集中 发 生 的 频率 数 ， 佑 计 出 每 个 属性 的 概率 估计 值 ， 因 而 朴素 贝 叶 斯 分 类 器 
的 效率 特别 高 。 

朴素 贝 叶 斯 分 类 器 是 以 一 个 很 强 的 简单 假设 ， 即 数据 集 的 属性 相对 于 类 变量 是 相互 独立 
的 ， 为 基础 的 。 这 个 假设 条 件 在 现实 世界 的 学 习 任 务 中 是 很 少 能 够 满足 的 。 尽 管 Domingos 
和 Pazzani 已 经 发 现 ， 在 某 些 情况 下 ， 属 性 独立 性 的 违背 对 分 类 精度 的 影响 会 很 小 ， 但 是 在 
大 多 数 实际 情况 下 ， 该 假设 的 违背 会 显著 地 降低 预测 精确 度 ， 于 是 人 们 开始 研究 如 何 减 弱 或 
放松 属性 独立 性 假设 。 
3. TAN 分 类 器 
树 型 扩展 朴素 贝 叶 斯 分 类 器 (Tree-Augmented Naive Bays classifier, TAN Classifier) 是 由 
Friedman 等 人 提出 的 一 种 树 型 贝 叶 斯 网 络 分 类 器 ， 是 朴素 贝 叶 斯 分 类 器 的 一 种 改进 模型 。 
TAN 分 类 器 的 分 类 性 能 明显 优 于 朴素 贝 叶 斯 分 类 器 。 其 基本 思路 是 放松 朴素 贝 叶 斯 分 类 器 
中 的 独立 性 假设 条 件 ， 在 属性 之 间 添 加 否 干 增强 弧 ， 并 且 保 持 增强 弧 连 同属 性 节点 构成 树 形 
结构 。 借 鉴 贝 叶 斯 网 络 中 表示 依赖 关系 的 方法 ， 扩 展 朴 素 贝 叶 斯 的 结构 ， 使 其 能 容纳 属性 间 
存在 的 依赖 关系 ， 但 对 其 表示 依赖 关系 的 能 力 加 以 限制 。TAN 将 贝 叶 斯 网 络 表 示 依 赖 关 系 
的 能 力 与 朴素 贝 叶 斯 的 简易 性 相 结 合 ， 是 学 习 的 效率 与 准确 地 描述 属性 间 相 关 性 之 间 一 个 很 
好 的 折 中 。 















































































































































在 TAN 树 形 结构 中 ， 
e 类 节点 是 树 的 根 节点 ,没有 父 节 点 ， 即 Pa, =; 


EH 


。 属性 节点 除了 类 结 点 以 外 最 多 只 有 1 个 父 节 点 ， 即 属性 节点 最 多 只 有 2 个 父 节点 。 
Pa;x2 HC e Pa,(i = l,:,n) 。 
TAN 分 类 器 模型 如 图 7-6 所 示 。 



































到 7-6 TAN 分 类 器 模型 示意 图 











因此 ， 在 朴素 贝 叶 斯 分 类 器 中 ， 实 例 素 = laa, a, 








属于 类 e; 的 概率 可 表示 为 


Pray Ce; | 4,,0,,77,0,) = aP(c;) | | PCa! Pa;) (7-80) 
i=l 
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Cian = argmax PC) I] P; | Pa; ) (7-81) 
CFE 101,02, 71, €n i=l 


XP, Pla, | Pa;) 或 者 是 P(a1 c)， 或 者 是 P(o l a,, c)a, ela, a), ^7, dialo 

与 朴素 贝 叶 斯 分 类 器 不 同 ，TAN 分 类 器 需要 有 构造 模型 结构 的 学 习 算 法 。Friedman 等 
人 提出 利用 条 件 互信 息 来 构造 TAN 分 类 器 的 算法 。Keogh 和 Pazzani 采用 不 同 的 思路 构造 
TAN 分 类 器 ， 选 择 使 分 类 精度 改进 最 大 的 弧 作 为 TAN 的 增强 弧 。 这 两 种 方法 的 不 同 之 处 在 
于 ,采用 不 同 的 评价 准则 来 选择 增强 弧 。 

4. BAN 分 类 器 

扩展 朴素 贝 叶 斯 的 贝 叶 斯 网 络 ( Bayesian 
Network Augmented Naive Bayes ，BAN ) 模 型 原 
则 上 对 每 个 节点 的 父 节 点 个 数 没有 限定 ， 只 
需 按照 事先 选 定 的 评价 准则 ， 在 与 属性 节点 (+) 
A, 相关 联 的 节点 4,，4。，…，4;.，，C 中 导 找 (4) (+) (+) 
A; 的 父 节 点 ， 每 个 节点 A; 可 以 找 出 多 个 父 节 
点 ， 每 个 节点 A, 的 父 节 点 可 能 不 同 。 与 一 般 图 7-7 BAN 模型 示意 图 
贝 叶 斯 网 络 的 学 习 方法 类 似 ，BAN 的 学 习 有 两 种 方式 ”” : 启发 式 搜索 方法 和 相关 性 分 析 
方法 。 图 7-7 所 示 为 BAN 模型 示意 图 。 

BAN” 21 进一步 扩展 了 TAN 的 结构 ， 允 许 属性 之 间 可 以 形成 任意 的 有 向 图 ， 使 其 表示 
依赖 关系 的 能 力 增强 ， 然 而 由 于 其 结构 的 任意 性 ， 与 一 般 贝 叶 斯 网 络 一 样 ，BAN 结构 的 学 
习 是 不 容易 的 (参考 文献 [24] 已 证 明 贝 叶 斯 网 络 的 学 习 是 一 个 NP-Complete 问题 ) 。 目 前 ， 
并 没有 十 分 有 效 的 学 习 这 种 结构 的 算法 。 

5. 贝 叶 斯 多 网 络 分 类 器 

贝 叶 斯 多 网 络 ( Bayesian Multi-Net, BMN ) 模 型 结构 是 由 多 个 子 贝 叶 斯 网 络 分 类 器 组 成 
的 ， 每 个 子 网 的 分 类 节点 是 类 节点 的 一 个 取 值 ， 该 节点 的 概率 是 类 节点 取 值 的 先 验 概率 ， 其 
余 节 点 不 变 ，BMN 模型 示意 图 如 图 7-8 所 示 。 这 种 结构 是 BAN 的 一 种 扩展 。BAN 强迫 对 每 
个 类 别 下 属性 之 间 的 关系 都 相同 ， 而 在 BMN 下 ,不 同类 别 下 的 属性 之 间 的 关联 可 以 不 同 。 
因而 BMN 的 表达 能 力 应 该 比 BAN 更 强 ， 比 如 在 模式 识别 中 ， 不 同 模式 下 特征 之 间 的 关系 可 
能 有 很 大 差别 。BMN 并 没有 对 各 属性 之 间 的 关系 作 限 制 。BMN 比 BAN 的 结构 可 能 更 简洁 ， 
因为 每 个 子 网 内 的 局 部 结构 要 比 BAN 简单 ， 而 在 BAN 中 要 表示 出 所 有 属性 之 间 的 关联 可 能 
需要 更 复杂 的 结构 。 
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图 7-8 ”BMN 模型 示意 区 
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6. 通用 的 贝 叶 斯 网 络 分 类 器 
前 面 几 种 结构 都 把 类 节点 作为 一 种 特殊 的 节点 来 对 待 ， 而 通用 贝 叶 斯 网 络 ( General 


Bayesian Network, GBN) 把 类 节点 与 属性 节点 同 (4) c (4) 
样 对 待 ， 如 图 7-9 所 示 。 这 种 结构 学 习 需 要 获得 
一 个 完整 的 贝 叶 斯 网 络 ， 而 分 类 问题 可 以 看 作 一 


种 特殊 的 推理 过 程 或 决策 问题 。 人 们 认为 CBN 
中 整个 数据 集 只 有 一 个 单一 的 概率 依赖 关系 ， 而 





















































BMN 则 允许 每 个 类 别 下 有 一 个 概率 依赖 关系 ， (4) (4) 
因而 当 整 个 数据 集 具 有 单一 分 布 时 ，CBN 的 性 能 
会 好 些 ; 当 不 同类 别 下 的 特征 依赖 关系 差别 较 大 图 7-9 GBN 模型 示意 图 

















时 ，BMN 的 性 能 要 好 些 。 
7.3.6 小 结 


贝 叶 斯 网 络 ( Bayesian Network ) 是 一 类 对 不 确定 知识 进行 表达 和 推理 的 拓扑 结构 ， 用 节 
点 表示 随机 变量 ， 用 有 向 弧 表 示 节 点 间 的 依存 关系 。 由 于 利用 了 类 人 化 的 推理 机 制 ， 贝 叶 斯 
网 络 能 较 好 地 表达 知识 的 不 确定 性 ， 并 且 能 够 实现 快速 推理 ， 因 而 在 人 工 智能 、 目 标识 别 、 
决策 评估 和 信息 融合 等 领域 中 得 到 了 广泛 的 研究 和 应 用 。 贝 叶 斯 网 络 作 为 一 种 分 类 器 ， 能 清 
晰 地 表示 上 下 层 特 征 之 间 的 依存 关系 ， 具 有 参数 设置 简单 、 运 算 速 度 快 等 优点 ， 可 以 实现 对 
目标 的 快速 分 类 ， 即 使 在 目标 信息 很 少 的 情况 下 ， 通 过 选择 知 干 最 有 代表 性 的 特征 ， 利 用 不 
多 的 先 验 知识 ， 也 可 以 进行 快速 的 粗 分 类 。 

目前 国外 研究 人 员 已 开始 将 贝 叶 斯 网 络 应 用 到 人 脸 识 别 或 表情 识别 中 。 参 考 文献 [25 ] 
采用 TAN 分 类 器 学 习 面 目 特征 之 间 的 从 属 关 系 ， 并 提出 一 种 新 算法 来 寻找 最 佳 的 TAN 结 
构 ， 比 简单 的 NB 分 类 器 改善 了 效果 。 参 考 文献 [26] 用 贝 叶 斯 网 络 对 视频 中 的 表情 进行 分 
类 ， 因 为 贝 叶 斯 网 络 在 推理 和 训练 过 程 中 可 以 处 理 丢失 的 数据 ; 参考 文献 [27] 提出 一 种 插 
入 式 贝 叶 斯 网 络 (Embedded Bayesian Networks, EBN) HFA, Jp E Scd 5j oA GN ER 
马尔 可 夫 方 法 (Embedded HMM Approach) 进行 了 比较 。 


7.4 隐 马 尔 可 夫 模 型 及 其 基本 问题 





















































7.4.1 概述 


隐 马 尔 可 夫 模 型 (HMM) 是 20 世纪 60 ERR ~70 年 代 初 提出 来 的 一 种 基于 马尔 可 夫 源 
或 马尔 可 夫 链 概率 函数 的 统计 信号 模型 。 它 是 一 种 用 参数 表示 的 、 用 于 描述 随机 过 程 统计 特 
性 的 概率 模型 。 

HMM 的 理论 基础 是 由 Baum 等 人 建立 起 来 的 。1907 年 ， 马 尔 可 夫 ( Markov) 提 出 了 “ 马 
尔 可 夫 链 ” (一 种 能 用 数学 分 析 方 法 研究 自然 过 程 的 一 般 方式 ) ， 开 创 了 对 一 种 无 后 效 性 的 随 
机 过 程 ， 即 “Markov 过 程 ”的 研究 。Baum 等 人 在 马尔 可 夫 链 的 基础 之 上 建立 和 发 展 了 隐 马 尔 
可 夫 模 型 ( HMM ) 。 

随后 由 CMU 的 Baker 和 IBM 公司 的 Jelinet 等 人 将 其 应 用 到 语音 识别 领域 。 由 于 Bell SE 
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验 室 的 Rabiner 等 人 在 20 世纪 80 年 代 中 期 ， 对 HMM 的 深入 浅 出 的 介绍 ， 才 逐渐 使 HMM 成 
为 世界 各 国 研究 人 员 所 了 解 和 熟悉 ， 进 而 成 为 公认 的 一 个 研究 热点 。 特 别 是 在 近 些 年 ， 
HMM 可 以 为 不 同 信和 号 建 模 的 特点 ， 以 及 在 语音 信号 处 理 上 的 成 功 ， 并 且 拥 有 经 典 的 训练 和 
寻 优 算法 ， 使 得 很 多 研究 人 员 开 始 尝试 将 HMM 用 于 目标 识别 、 人 脸 识 别 、 光 学 字符 识别 
(OCR) 等 领域 。 


7.4.2 马尔 可 夫 链 模型 


1. 马尔 可 夫 过 程 
当 过 程 在 1=io 时 所 处 的 状态 为 已 知 的 情况 下 ， 过 程 在 时 刻 (t > ) 所 处 的 状态 与 过 程 
TE t = to 时 刻 之 前 的 状态 无 关 。 这 种 已 知 “ 现 在 ”的 条 件 下 ,“ 将 来 ”与 “过 去 ”无关 的 性 质 ， 就 
是 直观 意义 下 的 马尔 可 夫 性 或 称 为 无 后 效 性 。 具 有 无 后 效 性 的 过 程 称 为 马尔 可 夫 过 程 。 
【定义 7-1】 给 定 随机 过 程 | X(t) ,t e 7 了 |， 如 果 对 于 参数 中 任意 7 个 时 刻 t;，i=1,，2， 
n; ty St, <ie <8, A 
P{X(t,) €«x,|l X() 2 x,,X(5) = x57 XC) = Xt} 
= PIX(t,) < xl X (tai) = xd (7-82) 
则 称 随机 过 程 1X(t) , te 7| 为 马尔 可 夫 过 程 ， 简 称 马 氏 过 程 。 
随机 过 程 具有 马尔 可 夫 性 质 是 说 ， 当 给 定 导 三) XC) X(t) Bf, XC) 的 条 件 分 
布 只 依赖 于 X(i, .1 ) 的 已 知 值 ， 而 与 在 -1 以 前 的 X(7) 的 取 值 无 关 。 
【定义 7-2】 给 定 马尔 可 夫 过 程 1X(t) ,te TI, 条件 概率 为 
p(s,t,x,vy) = PIX(O) < yl X(s) =x} (7-83 ) 
称 为 马尔 可 夫 过 程 的 转移 概率 函数 。 
马尔 可 夫 过 程 (X(t) ,i e TL PXG) 的 取 值 x 称 为 状态 , X(t) = x 表示 过 程 在 时 刻 +， 处 
于 状态 x， 过 程 所 有 取 值 的 全 体 己 = ix: X(t) = x,t e TI 称 为 状态 空间 。 
马尔 可 夫 过 程 构成 如 下 : 
e 状态 : 以 天 气 为 例 ， 有 了 上 晴 、 阴 、 雨 三 种 状态 ; 
e quas: 时 间 为 时， 规定 的 系统 状态 初始 概率 ; 
© 状态 转移 矩阵 : 状态 间 转 移 的 概率 。 
2. 马尔 可 夫 链 
马尔 可 夫 链 是 马尔 可 夫 随 机 过 程 的 特殊 情况 ， 即 马尔 可 夫 链 是 状态 和 时 间 参 数 都 离散 的 
马尔 可 夫 过 程 。 从 数学 上 ， 可 以 给 出 如 下 定义 : 
随机 序列 X,， 在 任 一 时 刻 n， 它 可 以 处 在 状态 9, ，…，0y， 且 它 在 m+ 时 刻 所 处 的 状 
态 为 qn RRK, RICE m 时 刻 的 状态 ¢, 有 关 ， 而 与 m 时 刻 以 前 它 所 处 状态 无 关 ， 即 有 
POG = Quel = Gata = Ga Xi = Gi) = P(X = Gael mq) 
(7-84) 





















































式 中 ， 9199297 ImoImek € (01,0,,.…,0n) , MJEK Xn 为 马尔 可 夫 链 ， 并 且 称 
Pi(m,m +k) = P(g = 9! dn =0) 1<ij « N,m,k HIERZ (7-85) 
为 步 转 移 概 率 ， 当 Pj(m,m +k) 与 m 无 关 时 ， 称 这 个 马尔 可 夫 链 为 齐 次 马尔 可 夫 链 ， 此 
时 
Pj(m,m +k) = P,(k) (7-86) 
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VA Jae TORE al FA, HR AY EET TF RT RE EID, PO) 称 为 一 步 转 
移 概 率 ， 简 称 为 转移 概率 ， 记 为 a;， 所 有 转移 概率 a, (1 < i,j < N) 可 以 构成 一 个 转移 概率 


ERE, B 
Qn UU QIN 
A -| 3 su : | (7-87) 
Qn C7 1 
N 
HA 0<a,;<1, Ya; =1。 


ELT k APRESS PCR) 可 由 转移 概率 a; 得 到 ， 因 此 ， 描 述 马尔 可 夫 链 的 最 重要 参数 
就 是 转移 概率 矩阵 4。 但 矩阵 4 还 决定 不 了 初始 分 布 ， 即 由 A 求 不 出 q = 0; 的 概率 ， 这 样 
完全 描述 马尔 可 夫 链 ， 除 矩阵 A 之 外 ， 还 必须 引进 初始 概率 向 量 = (ar, tty), EP 
m, = P(q, = 6) l<i<N (7-88 ) 
GR, A0O<a7,<1,> 7, =1., 


实际 中 ， 马 尔 可 夫 链 的 每 一 个 状态 可 以 对 应 于 一 个 可 观测 到 的 物理 事件 。 比 如 天 和 气 预测 
中 的 雨 、 畏 、 雪 等 ,那么 这 时 它 可 称 之 为 天 气 预报 的 马尔 可 夫 链 模型 。 根 据 这 个 模型 ， 可 以 
算出 各 种 天 气 (状态 ) 在 某 一 时 刻 出 现 的 概率 。 例 如 : 某 处 的 晴天 、 下 十 和 下 雪 的 天 气 情 况 
分 布 如 图 7-10 所 示 ， 要 预测 出 连续 六 天 是 晴天 、 下 雨 、 下 雨 、 下 雨 、 下 雪 和 下 雪 的 天 气 出 
现 的 概率 。 




















图 7-10 天气 分 布 图 示 














解 : 首先 对 于 这 个 具体 的 问题 已 知 马尔 可 夫 链 中 主要 的 元 素 状 态 、 转 移 概 率 和 初始 状态 


分 别 是 





0.8 0.15 0.05 

| Ss NE ES a0 38 0.6 0. oj- (0.7 0.25 0.05) (7-89) 
0.75 0.05 0.2 

然后 利用 乘法 定理 计算 出 现 连续 六 天 是 晴天 、 下 雨 、 下 雨 、 下 雨 、 下 雪 和 下 雪 的 天 气 出 








现 的 概率 ， 也 就 是 图 7-11 所 示 的 天 气 出 现 的 概率 。 
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连续 六 天 的 天 气 图 示 


)P (Ss | SsunnyS rainy Suus) X 
| SS) PCS. | Suus) PCS) 
| Des ) 已 Disses | Sg ) P( Ogay | A aur ) 


y 


rainy 


2 0.7 x0.15 x 0.6 x0.6 x0.02 x 0.2 


= 0. 0001512 


(7-90) 























小 结 : 马尔 可 夫 模 型 的 几 个 要 素 : 
1) 有 N 个 状态 ， Si, S, 9N 

2) 存 在 一 个 离散 的 时 间 序 列 上 = 0,t 
3) 在 每 个 时 刻 上， 系统 只 能 处 于 唯一 





由 此 例 可 知 : 畏 天 一 下 雨 一 下 两 一 下 两 一 下 雪 一 下 雪 可 以 看 作 是 时 间 上 离散 的 马尔 可 夫 





Safa 


^ q, 3 


4) 下 一 个 时 刻 所 处 的 状态 是 随机 出 现 的 ; 
5) 当前 状态 q, 只 与 前 面相 邻 的 一 个 状态 g,_,/ 有 关 ， 与 其 他 状态 无 关 ， 即 
Pla, 2j| Ga 2 i,q = k,e] = Pla, =j| qa =i] (7-91) 





7.4.3 隐 马 尔 可 夫 模 型 
1. 基本 概念 





HMM 是 在 马尔 可 夫 链 的 基础 之 上 发 展 起 来 的 。 由 于 实际 问题 比 马尔 可 夫 链 模型 所 描述 
的 更 为 复杂 ， 观 察 到 的 事件 并 不 是 与 状态 一 一 对 应 的 ， 而 是 通过 一 组 概率 分 布 相 联系 的 ， 这 
样 的 模型 就 称 为 HMM。 它 是 一 个 双重 随机 过 程 ， 其 中 之 一 是 马尔 可 夫 链 ， 这 是 基本 随机 过 
程 ， 它 描述 状态 的 转移 。 吃 一 个 随机 过 程 描述 状态 和 观察 值 ， 不 像 与 马尔 可 夫 链 模型 中 的 观 
察 值 和 状态 一 一 对 应 ， 因 此 不 能 直接 看 到 状态 ， 而 是 通过 一 个 随机 过 程 去 感知 状态 的 存在 及 
特性 。 因 而 称 之 为 “ 隐 ” 马 尔 可 夫 模 型 (HMM ) 。 

现在 来 看 一 个 著名 的 说 明 HMM 概念 的 例子 一 一 球 和 和 缸 (Ball and Urn) SE. RA N T 
氏 ， 每 个 负 中 污 有 很 多 颜色 的 球 ， 球 的 颜色 由 一 组 概率 分 布 描述 。 实 验 是 这 样 进行 的 ， 根 据 
某 个 初始 概率 分 布 ， 随 机 地 选择 入 个 生 中 的 一 个 ， 例 如 第 i 个 氏 ， 再 根据 这 个 饶 中 彩色 球 颜 
色 的 概率 分 布 ， 随 机 地 选择 一 个 球 ， 记 下 球 的 颜色 ， 记 为 0,， 青 把 球 放 回 抽 中 ， 又 根据 描 
述 饶 的 转移 的 概率 分 布 ， 随 机 选择 下 一 个 年 ， 例 如 ， 第 j 个 氏 ， 再 从 和 氏 中 随机 选 一 个 球 ， 记 
下 球 的 颜色 ， 记 为 0, ,一直 进行 下 去 。 可 以 得 到 一 个 描述 球 的 颜色 的 序列 0,，0,，…， 由 
于 这 是 观察 到 的 事件 ， 因 而 称 之 为 观察 值 序列 。 但 币 之 间 的 转移 以 及 每 次 选取 球 的 缸 被 隐藏 























起 来 了 ， 并 不 能 直接 观察 到 。 而 且 ， 从 每 个 缸 中 选取 球 的 颜色 并 不 是 与 币 一 一 对 应 的 ， 而 是 
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由 该 和 负 中 彩 球 颜色 概率 分 布 随机 决定 的 。 此 外 ， 每 次 选取 哪个 适 ， 则 由 一 组 转移 概率 所 决 
年 。 球 与 所 试验 如 图 7-12 所 示 。 


缸 1 缸 2 HIN 
PET) =b] PT) —bA P( 红 ) =by1 
PCE) =biz POR) =b22 POR) =byp 
PK) =b]3 PX) 一 023 P(&) =by3 
PŒ) =b yy PGR) 一 D2M7 PŒ) —bNM 


图 7-12 BRENHIN 


2. 定义 

有 了 前 面 讨论 的 马尔 可 夫 链 以 及 球 和 和 拭 的 实验 ， 就 可 以 给 出 HMM 的 定义 ， 或 者 说 一 个 
HMM 可 以 由 下 列 参 数 描述 : 

1)N: 模型 中 马尔 可 夫 链 状态 数目 。 记 N 个 状态 为 9,，…，0s， 记 1 时 刻 马 尔 可 夫 链 所 
处 状态 为 9,， 显 然 9 属于 (0 ，0,，…，0n)。 在 球 与 生 的 实验 中 ， 生 就 相当 于 状态 。 

2)M: 每 个 状态 对 应 的 可 能 的 观察 值 数 目 。 记 M SEB, on, Vus dd t AI 
察 到 的 观察 值 为 0,， 其 中 0, 属于 (Vi ，…，Vy)。 在 球 与 拭 的 实验 中 ， 所 选 彩 球 的 颜色 ， 就 
是 观察 值 。 

3)g: 初始 状态 概率 问 量 ，7 = (7 ，…，7w) ， 其 中 
m, = P(g, 9. 1IzizN (7-92) 
ERSAK ER, TRITT ae Ed. ES o 
4)4: 状态 转移 概率 矩阵 , 4 = (o) yu, rh 
a; = PCG = 0,1 =0) l<ij<N (7-93) 
在 球 与 缸 的 实验 中 ， 是 指 描述 每 次 在 当前 选取 的 缸 的 条 件 下 选取 下 一 个 缸 的 概率 。 
5) B; 观察 值 概率 矩阵， B = (bi) vem 其 中 
b, = P(O, = Val q, = 6) 1<j<N;l<k<M (7-94 ) 
PERSP, bE AR, BRAE k HL LAR 
这 样 ， 可 以 记 一 个 HMM 为 :和 A = CN, 
Al7-13 HMM 组 成 示意 图 



















































0 人 大 
观察 值 序列 









马尔 可 夫 链 
(T, A) 





M,7,A,B) , 或 简写 为 A=(m, A, B). 

更 形象 地 说 ，HMM 可 分 为 两 部 分 : 
一 个 是 马尔 可 夫 链 ， 由 ar, A 描述 ,产生 
的 输出 为 状态 序列 ; 为 一 个 是 一 个 随机 过 程 ， 由 B 描述 ， 产 生 的 输出 为 观察 值 序列 ， 如 图 
7-13 所 示 。7 为 观察 值 时 间 长 度 。 


状态 序列 
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7.4.4 隐 马 尔 可 夫 模 型 的 三 个 基本 问题 


隐 马 尔 可 夫 模 型 在 实际 应 用 中 要 解决 的 三 个 基本 问题 : 

问题 1: 给 定 观察 序列 0O0=0，0，…， 0r 和 A=(7T,， A, B), 怎样 有 效 地 计算 
P(01A)， 即 给 定 模型 的 观察 序列 的 概率 ? 

问题 2: 给 定 观察 序列 O=0,, O,, ++, Op 和 模型 A， 怎样 选择 男 一 个 状态 序列 0”= 
Qi» dz ，…，97 ， 使 它 在 某 种 意义 下 是 最 佳 的 ( 即 最 好 地 解释 观察 情况 )? 

问题 3: 怎样 调整 模型 参数 和 A = (m, A, B), 使 P(01 A) BECK? 

这 三 大 基本 问题 的 解决 过 程 与 方法 ， 即 是 HMM 实际 应 用 的 过 程 与 方法 ， 可 以 从 下 面 的 
角度 理解 : 估计 问题 ， 即 模型 评价 一 一 前 向 算法 和 后 向 算法 ; 解码 问题 ， 即 最 优 状态 序列 求 
解 一 一 Viterbi 算法 ; 学 习 问 题 ， 即 模型 参数 估计 一 一 Baum-Welch 算法 。 

1. HMM 模型 评价 ( Model Evaluation) 

HMM 是 将 实时 信号 源 作 为 马尔 可 夫 信 号 源 或 马尔 可 夫 链 的 概率 函数 的 一 种 统计 模型 ， 
假定 信号 是 模型 输出 的 观察 值 序列 ， 当 使 用 HMM 作为 分 类 目的 时 ， 通常 假 定 观 察 值 序列 是 
由 唯一 信号 源 产生 的 ， 而 分 类 的 目的 就 是 决策 这 个 观察 值 序列 是 由 哪 一 个 信号 源 产 生 的 ， 于 
是 将 每 一 种 信号 源 用 相应 的 HMM 来 建 模 ， 当 输入 一 个 未 知 模式 的 观察 值 序列 到 某 一 HMM 
信号 模型 时 ， 应 该 对 其 生成 概率 模型 进行 评价 。 

最 后 将 产生 观察 值 序列 的 最 大 生成 概率 的 第 I 个 HMM 模型 作为 该 信号 的 HMM 源 ， 也 
就 是 将 这 一 个 未 知 模式 分 到 1 类 中 去 : 

xei, WR maxP(0,1 A,), 那么 x ei 

前 向 -后 向 算法 是 用 来 计算 给 定 一 个 观察 值 序列 0 = 0 ，0 ，…，07 ， 以 及 一 个 模型 A 
-(m, 4A4,B) 时 ， 由 模型 A 产生 出 O 的 概率 P(01 A). 

根据 图 7-13 所 示 的 HMM 的 组 成 ,， P(01 入) 最 直接 的 求 取 方 法 如 下 : 

对 一 个 固定 的 状态 序列 S$=g,，g,，…，9r， 有 
















































































P(01 $,4) = [[ P(0,1 q,,A) = b, (01)0,(0,).b, (Or) (7-95) 
式 中 
b, (O,) = bal q 0,02 VS (7-96) 
而 对 给 定 A， 产 生 5 的 概率 为 
P(SIA) = Ta ni lap ap (7-97) 
因此 ， 所 求 概率 为 
PCOIA) = >P(OIS,A)P(SIA) 
Bras 
> » 7,5, (01)a,,,5,(0;) sag, V b, (07) (7-98) 


显而易见 ， 上 式 的 计算 量 是 十 分 惊人 的 ， 大 约 为 2TV 数量 级 ， 当 N S, T-100 时 ， 
计算 量 达 10”， 这 是 完全 不 能 接受 的 。 在 此 情况 下 ， 要 求 出 PCOT A), ， 还 必须 寻求 更 有 效 
的 算法 ， 这 就 是 Baum 等 人 提出 的 前 向 -后 向 算法 。 
(1) 前 向 算法 ”定义 前 向 变量 为 
ali) = P(0O1,0,,…,0,,g, = 0;| A) lsis T (7-99) 
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HbA, A 
1) 初始 化 : 
a, (i) = 7,6;(0,) l<i<N 
2) 递归 : 


N 


eG) = PECON 1<t:<T-1;l<j<N 


i=l 
式 中 
5,(0,4) = b; 





OH1= 内 


3) 终结 : 


P(OIl A) = > 


(7-100) 


(7-101) 


(7-102) 


(7-103) 


这 种 算法 计算 量 大 为 减少 ， 变 为 NN +1)(7-1) + 入 次 乘法 和 N(N -1)(T-1) 次 加 














构 ， 如 图 7-14 所 示 。 


A 






+1 K 
Al) n 











法 。 同 样 V=5、7=100 时 ， 只 需 大 约 3000 次 计算 (乘法 ) 。 这 种 算法 是 一 种 典型 





| 
6 
i l < 
1 
t+l 
i L L L L L L L 
eq) ea) Quer <3 T 
观察 时 刻 / 
a) b) 








图 7-14 前 向 算法 示意 图 
a) i 时刻 递归 关系 b) 栅 格 结构 














(2) 后 向 算法 “与 前 向 算法 类 似 ， 定 义 后 向 变量 ， 
B, G) = PCO I0, s POI = 6,,A) 1IztzxT-l1 





WBA, A 
1) 初始 化 : 
B=1 1<i<N 
2) 递归 : 


N 
BG = X abl OBa) t=T-1,7-2,+,l;1<i<N 
j=l 


的 栅 格 结 


(7-104) 


(7-105) 


(7-106) 


745 
3) 终结 : 


P(OLA) = > B,C) (7-107 ) 
后 向 算法 的 计算 量 大 约 在 NPT BCE, tL AS 
2. HMM 最 优 状态 序列 求解 
给 定 观察 序列 O=0,, O,, ++, Op 和 模型 入， 怎样 选择 男 一 个 状态 序列 Q* = gi ，g; ， 
qr ， 使 它 在 某 种 意义 下 是 最 佳 的 ( 即 最 好 地 解释 观察 情况 )? 
Viterbi 算法 解决 了 给 定 一 个 观察 值 序列 0 = 0, ，0,，…，07 和 一 个 模型 入 = (m, A, 
B) ,在 最 佳 的 意义 上 确定 一 个 状态 序列 0”= gr ，g; ，…，g7 的 问题 。 
“最 佳 ” 的 意义 有 很 多 种 ， 由 不 同 的 定义 可 得 到 不 同 的 结论 。 这 里 讨论 的 最 佳 意义 上 的 
状态 序列 0”， 是 指使 P(Q，0 1 入) 最 大 时 确定 的 状态 序列 O o Viterbi 算法 可 以 叙述 如 下 : 
EX SCi) 为 时 刻 i 时 沿 一 条 路 径 a, oo, 4. He, =6,, PEM O,, O,--, 0, 的 
最 大 概率 ， 即 有 



































6,(i) = " max Pg, ,gg = 6,,0,,0,,::,0,1] A) (7-108) 
那么 ， 求 取 最 佳 状态 序列 Q 的 过 程 为 ， 
1) 初始 化 : 
6,(i) = 7,6,(0,) ]zzizN (7-109) 
gy, (i) =0 ]zizN (7-110) 
2) 递归 : 
6,4) = max [8.., (i) ay Jb;(0,) 2<1<T;l<j<N (7-111) 
e) = argmax| 6, 1 (7) a; | 2<i:<T;lsj<N (7-112) 
3) 终结 : 
pr max [67 (i) ] (7-113) 
qr = argmax|[ 67(i) | (7-114) 


求 取 状态 序列 : 得 
gr = Pri gi) t= T-1,T-2,---,1 (7-115) 
应 当 指出 ，Viterbi 算法 的 一 个 副产品 P”= maxP(Q,0 | A) 和 前 向 -后 向 算法 计算 出 的 
P(Ol A) = > P(Q,01 A) 之 间 的 关系 为 : 对 语音 信和 号 应 用 而 言 , P(Q,01 A) 动态 范围 很 
Q 
大 ， 或 者 说 不 同 的 Q@ 使 PLQ@,OIA) 的 值 差 别 很 大 ， mi maxP(Q,0| A) 事实 上 是 > P(Q,O 
Q 
| A) 中 举足轻重 的 唯一 成 分 ， 因 此 常常 等 价 地 使 用 maxP(Q,0 | A) 和 > P(Q,O1 A), Af 
Q 
4, Viterbi 算法 也 能 用 来 计算 P(01 A) 。 
此 外 ， 上 述 的 Viterbi 算法 也 是 一 种 栅 格 结构 ， 而 且 类 似 于 前 向 算法 。 同 样 ， 由 后 向 算 
法 的 思想 出 发 ， 亦 可 推导 出 Viterbi 算法 的 另 一 种 实现 方式 。 
3. HMM 模型 参数 估计 
HMM 模型 参数 估计 (Model Parameteres Estimating ) 是 HMM 模型 的 一 个 关键 问题 ， 一 个 
模型 设计 得 是 否 合 理 ， 或 者 说 是 否 可 以 用 该 HMM 模型 来 描述 此 类 信和 号， 最 终 体 现在 是 不 是 
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能 够 通过 大 量 的 观察 值 样本 训练 出 收敛 的 HMM 参数 ， 并 使 模型 具有 推广 的 能 力 。HMM 模 
型 参数 估计 准则 是 给 定 一 个 观察 序列 0 = 0, ，0,;，…，0，， 通 过 某 种 算法 对 HMM 模型 参数 
进行 调整 ， 最 终 确 定 一 个 和 A= (Cm, A, B), 使 得 P(01 A) 最 大 。 

(1) Baum-Welch 算法 ”这 个 算法 实际 上 是 解决 HMM 训练 ， 即 HMM 参数 估计 问题 ， 或 
者 说 给 定 一 个 观察 值 序列 0 = 0, ，0, ，…，07r， 该 算法 能 确定 一 个 人 = (7,4,B) , 使 P(0 
LA) EKo 

显然 ， 由 式 (7-99) 和 式 (7-104) 定 义 的 前 向 和 后 向 变量 有 






































Balaka o a ODO l<i<T-1 (7-116) 


这 里 , RUA, 使 P(O1 A) 最 大 ， 是 一 个 泛 函 极 值 问题 。 但 是 由 于 给 定 的 训练 序列 有 
限 ， 因 而 不 存在 一 个 最 佳 的 方法 来 估计 和 A。 在 这 种 情况 下 ，Baum-Welch 算法 利用 递归 的 思 
想 ,使 P(O1 A) 局 部 极 大 ， 最 后 得 到 模型 参数 = Cr A,B) 。 此 外 ， 用 梯度 方法 也 可 以 达 
到 类 似 的 目的 。 

ELE, (ii) 为 给 定 训练 序列 O 和 模型 A 时， 时 刻 + 时 马尔 可 夫 链 处 于 0, 状态 和 时 刻 1+ 
1 处 于 0, 状态 的 概率 ， 即 




















EG) = PUO Sua = 8 AD (7-117) 
可 以 推导 出 : 
ECJ) = Le, G)ajb (0, ) B. G) ]/PCO V A) (7-118) 
那么 ， 时 刻 1 时 马尔 可 夫 链 处 于 0; 状态 的 概率 为 


EOD = P(0,4, 2613) = Y6G = a(DB()/PCOIA) 0-119) 
Bl. S EG) 表示 从 6, 状态 转移 出 去 的 次 数 的 期 望 值 ， 而 EGJ) 表示 从 6 状态 转 


移 到 0; 状态 的 次 数 的 期 望 值 。 由 此 ， 导 出 了 Baum-Welch 算法 中 著名 的 重 估 ( Reestimation) 公 
式 : 





(7-120) 
" ; é (i,j) 
"Ei (7-121) 
>, §: (2) 
&G) 
jx Ur M (7-122) 
2,60) 


那么 ，HMM 参数 入 = Cr, A, B) 的 求 取 过 程 为 : 根据 观察 值 序列 O 和 选取 的 初始 模型 
A=(a, A, B), tH fhst(7-120) 、 式 (7-121) 和 式 (7-122) ， 求 得 一 组 新 参数 7;、ay 和 bj， 
亦 即 得 到 了 一 个 新 的 模型 A = (m, A, B), WEI P(O1A) > PCOLA) ， 即 由 重 估 公 式 
得 到 的 入 E A 在 表示 观察 值 序列 0 方面 要 好 。 那 么 ， 重 复 这 个 过 程 ， 逐 步 改 进 模型 参数 ， 
直到 P(O1 A) 收敛 ， 即 不 再 明显 增 大 ， 此 时 的 和 即 为 所 求 的 模型 。 
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应 当 指出 ，HMM 训练 或 称 参 数 估计 问题 ， 是 HMM 在 模式 识别 中 应 用 的 关键 问题 ， 与 
前 面 讨论 的 两 个 问题 相 比 ， 这 也 是 最 困难 的 一 个 问题 ，Baum-Welch 算法 只 是 得 到 广泛 应 用 
的 解决 这 一 问题 的 经 典 方法 ,但 并 不 是 唯一 的 ， 也 和 远 不 是 最 完善 的 方法 。 
(2) HMM 的 最 佳 化 准则 “分 类 器 设计 的 准则 决定 着 分 类 器 的 分 类 性 能 。HMM 的 基本 原 
则 是 ， 如 果 正 确 地 选择 参数 ， 信 和 号 (或 观察 序列 ) 就 可 被 很 好 地 模拟 。 传 统 的 HMM 参数 估计 
方法 采用 Baum-Welch 算法 或 EM( 期 望 最 大 化 ) 算 法 ， 它 实际 上 是 一 种 最 大 似 然 ( ML) 法 。 最 
大 似 然 法 假定 一 系列 彼此 独立 的 随机 采样 x* = xiu x 服从 概率 分 布 P(x1 D), 
其 中 参数 o 属于 某 参数 空间 QQ。 给 定 一 观察 向 量 x = x ,xs,…,x,| ，B 对 该 向 量 的 似 然 度 
定义 为 联合 概率 分 布 P,(x1 @) ， 也 称 为 似 然 函数 。 最 大 似 然 佑 计 ( MLE ) 认 为 ， 似 然 函 数 的 
形式 是 固定 的 ， 而 似 然 函 数 中 各 参数 的 值 未 知 ， 参 数 估 计 的 目的 即 是 寻找 一 组 参数 值 ， 以 使 
似 然 函 数 对 各 个 观察 向 量 的 似 然 度 达到 最 大 化 。 如 假设 P,(x1 D) 是 一 高 斯 分 布 函 数 N = 
(m, X), D 即 包 括 均值 m 及 方差 >， 值得 强调 的 是 ， 这 里 B 不 是 一 个 随机 向 量 ， 而 是 某 个 
固定 而 未 知 的 参数 向 量 。 由 于 2” my, ox, 是 彼此 间 独 立 的 随机 变量 ， 似 然 函 数 可 以 重 写 
为 
















































































P (xl $) = BEZON d) (7-123) 
D 的 最 大 似 然 佑 计 可 以 被 定义 为 
Quy = argmaxP, (x | p) (7-124) 
这 种 佑 计 方法 经 常 被 称 为 最 大 似 然 估计 (MLE)。 由 于 对 数 函 数 是 单调 递增 函数 ， 因 此 
式 (7-120) 同 下 式 等 价 : 





Dui = argmax log(P,(x| $)) (7-125) 

Y log( P, (x 1. )) 为 一 连续 可 导 函 数 ， 则 Dyr AAE FI Se ZAR AS 

ólog( P, («| $)) o 
oP 

最 大 似 然 估计 可 被 证 明 是 一 致 的 。“ 一 致 性 ”意味 着 ， 当 训练 数据 足够 多 时 ， 参 数 估计 
可 收敛 到 真正 的 概率 分 布 形式 。 

Nakata 等 人 的 研究 结果 表明 ， 如 果 模 型 能 够 表示 数据 的 实际 分 布 〈 即 如 果 模 型 中 对 数据 
分 布 形式 的 假设 是 正确 的 ) ， 且 有 足够 的 训练 数据 ， 那 么 极 大 似 然 估计 就 是 实际 参数 的 最 佳 
估计 。 例 如 ， 如 果 数 据 分 布 是 高 斯 的 ， 则 高 斯 概率 函数 的 均值 和 方差 的 极 大 似 然 估 计 就 是 实 
际 均值 和 方差 的 最 佳 估计 。 采 用 EM 算法 ， 极 大 似 然 估计 可 以 有 效 地 用 于 HMM, 

然而 ， 以 最 大 似 然 度 为 优化 目标 的 分 类 器 无 法 得 到 理想 的 性 能 。 这 是 因为 假设 的 参数 分 
布 形式 与 实际 分 布 形 式 是 有 差异 的 。 依 据 假设 的 分 布 形式 而 进行 的 参数 优化 与 分 类 器 的 最 佳 
优化 ( 即 对 误 识 率 的 优化 ) 是 不 一 样 的 。 所 以 训练 无 法 得 到 最 佳 性 能 。 为 解决 这 些 问题 ， 出 
现 了 许多 不 同 的 分 类 器 参数 估计 准则 ， 如 最 大 互信 息 (Maximum Mutual Information) 法 、 最 小 
鉴别 信息 (Minimum Discriminative Information ) 法 、 校 正 训 练 ( Corrective Training) 法 、 最 大 模 
型 距离 (Maximum Model Distance) 法 等 。 尽 管 与 传统 的 ML 法 准则 相 比 ， 这 些 新 方法 有 显著 
的 优点 ， 但 它们 优化 的 目标 也 不 是 直接 和 分 类 误差 联系 在 一 起 的 ， 因 此 仍 有 改进 的 余地 。 最 
小 分 类 错误 (MCE ) 法 正 是 实现 了 这 种 改进 的 新 算法 ， 它 通过 直接 最 小 化 分 类 误差 来 实现 分 
类 器 的 设计 ， 也 就 是 说 ，MCE 训练 的 目标 不 是 使 模型 更 符合 训练 数据 的 分 布 ， 而 是 使 模型 








(7-126) 
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的 分 类 结果 (识别 ) 最 好 。 

(3) 最 小 分 类 /错误 准则 ”20 世纪 90 ERAR, Juang 等 学 者 提出 了 最 小 分 类 错误 
(MCE ) 准 则 。MCE 训练 算法 是 一 种 判别 训练 算法 。 它 的 提出 是 为 了 修正 传统 的 判别 训练 算 
法 的 缺点 。 基 于 这 种 准则 的 训练 算法 的 目的 是 为 分 类 器 找 出 合适 的 参数 集 ， 以 使 分 类 错误 最 
小 。 它 将 训练 的 目标 函数 与 误 识 率直 接 联系 起 来 ， 当 目标 函数 下 降 时 ， 系 统 的 误 识 率 也 
随 之 一 致 性 下 降 。 这 种 方法 从 改进 训练 的 效果 和 人 手 ， 能 够 有 效 地 区 分 易 混 请 的 模型 ， 从 而 减 
少 分 类 错误 率 。 这 种 训练 算法 在 很 多 模式 识别 的 领域 中 得 到 了 成 功 的 应 用 ， 例 如 语音 识别 、 
手写 字符 识别 等 。 


优化 准则 : 对 于 一 个 输入 向 量 ， 分 类 器 通过 以 下 决策 规则 来 进行 决策 : 









































x e Class k Tr eg, (x, A) = max g,(x, A) (7-127) 
WP, gi, A) AE x 属于 第 工 类 的 程度 的 判别 函数 ; A 是 参数 集 ; k 是 类 的 数量 。 
g,(x, A) 2 P(xl A?) Z P(xl a, AM, B®) (7-128) 
这 个 准则 可 以 被 重 写 为 
x e Class k Tr g(x, A) - max g, (x, A) >0 (7-129) 














DUC, Kte, (x, A) -maxg; (x, A) 的 值 越 高 ， 特 征 向 量 * 归 为 第 类 的 可 靠 性 越 
大 ， 这 意味 着 能 使 用 这 个 函数 的 负 值 作 为 x 归 类 为 第 类 的 误 识 率 。 
但 有 限 数据 训练 集 的 分 类 函数 〈 分 类 规则 ) 对 于 分 类 器 参数 集 4 来 说 是 个 阶 跃 函数 ， 
因此 它 不 利于 用 数值 分 析 方 法 来 优化 。 因 此 ， 需 要 定义 一 个 误 分 类 测度 函数 。 
在 参考 文献 [37 ] 中 ， 一 个 改进 的 误 分 类 测度 函数 可 以 用 下 式 表 示 : 
d; =- g(x,A) + lol Z eple: Gs40*1] (7-130) 


AF, n 是 误 识 别 类 识别 函数 的 加 权 系数 ， 是 一 个 正 的 常数 。 当 oor Te, KE Afe 
为 














d, (x, A) = -g, (x, A) +g, (x, A) (7-131) 
从 式 (7-131) 中 可 以 看 出 , id, (x, A) >0,， 则 意味 着 误 识 ; did, (x, A) «0, 
则 表明 正确 的 分 类 。 
理想 的 损失 函数 能 直接 反映 分 类 误差 ， 即 
E ne 
l, (x, A) =i, pee (7-132) 
由 于 其 导数 或 者 为 零 ， 或 者 没有 定义 ， 所 以 该 损失 函数 不 能 用 于 基于 梯度 的 最 佳 化 方 
法 。 在 MCE 算法 中 ， 理 想 损失 函数 可 以 通过 一 个 更 适合 梯度 最 佳 化 的 连续 的 损失 函数 来 近 
Wh. FIC, 一 个 与 类 相关 的 损失 4， (x, A) 可 以 定义 为 误 分 类 测度 函数 : 














l, (x, A) zl (d, (x, A)) (7-133) 
1 (M, (x; 4)) 的 选择 方式 有 很 多 种 ， 如 : 
1 
l, (x, A) =L (d, (x, A)) = tae one (7-134) 





AF, € 为 正 实数 。 可 以 看 出 ， 这 种 损失 函数 近似 一 个 理想 的 二 值 损失 函数 ， 并 且 是 连续 
的 。 对 于 一 个 训练 集 *， 经 验 损失 函数 被 定义 为 
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K Ni 


L(A) = EILG,A)] = > SLO” ,A) (7-135) 


RP, N 为 类 大 的 训练 样本 数 。 从 上 式 中 可 以 看 出 ， 最 小 化 经 验 损失 函数 可 以 得 到 最 小 化 
的 分 类 错误 。 分 类 参数 集 4 可 以 通过 最 速 梯度 下 降 算 法 中 最 小 化 损失 函数 来 获得 。 











Ami = A, = EVECA) | 4.4, (7-136) 
OL/On, 

VL(A) =| M | (7-137) 
OL/OX, 


sth, A, 表示 1 时刻 的 A 的 状态 ，A1，…As eA; e HEK, 820, XE 5-1, 2, -, d, 
梯度 VL (A) 可 以 根据 下 式 进行 计算 : 











N (i) 
óL ET ER CET) 
— = LOCIE Æ às Class k 7-138 
3k: £2, ( ) E fri As € Class ( ) 
L Mare ó (x A) 
= pex f pays Py € Classy (7-139) 
s i=l 


7.4.5 隐 马 尔 可 夫 算 法 实现 中 的 基本 问题 


1. 初始 模型 的 选取 

根据 Baum-Welch 算法 ， 由 训练 数据 得 到 HMM 参数 时 ， 如 重 估 式 (7-120) 、 式 (7- 
121) MR (7-122) 所 示 ， 一 个 重要 问题 就 是 初始 模型 的 选取 。 不 同 的 初始 模型 将 产生 不 
同 的 训练 结果 。 因 为 算法 是 使 忆 (OLA) 局 部 极 大 时 得 到 的 模型 参数 ， 因 此 选取 好 的 初始 
模型 使 最 后 求 出 的 局 部 极 大 与 全 局 最 大 接近 ， 是 很 有 意义 的 。 

但 是 ， 至 今 这 个 问题 仍 没有 完美 的 答案 。 实 际 处 理 时 都 是 采用 一 些 经 验方 法 。 一 般 认 
为 ,参数 7 和 4 的 初 值 选 取 对 训练 出 的 HHM 影响 不 大 ， 可 以 随机 选取 或 均匀 取 值 ， 只 要 满 
fest (7-87) MR (7-88) 中 要 求 的 约束 条 件 即 可 。 但 参数 8 的 初 值 选 取 对 训练 出 的 HMM 
影响 较 大 ， 一 般 倾向 采取 较为 复杂 的 初 值 选取 方法 。 基 于 这 种 考虑 ， 一 种 典型 的 HMM 参数 
估计 过 程 如 图 7-15 所 示 。 

这 里 ， 初 始 模型 A 可 以 任意 选取 。 但 因为 有 已 (CO1A) >P (01A), HAA FEA i 
进 后 的 模型 。 再 将 入 作为 初始 值 用 重 佑 公式 ， 得 到 入 。 这 样 就 避免 了 初 值 的 选择 不 当 ， 变 经 
SLE AA 为 A 一 碎 大 。 当 然 ， 沿 图 中 虚线 ， 不 用 重 人 公式， 和 也 可 近似 作为 模型 参数 。 

当然 ， 从 以 后 的 讨论 会 看 到 ，HMM 有 很 多 类 型 。 因 此 ， 针 对 不 同形 式 的 HMM ， 也 可 采 
取 不 同 的 有 效 的 初 值 选取 方法 。 

2. 多 个 观察 值 序列 训练 

实际 中 , 训练 一 个 HMM， 经 常 是 用 到 不 止 一 个 观察 值 序列 ， 那 么 对 于 工 个 观察 值 序列 
训练 HMM 时 ， 要 对 Baum-Welch 算法 的 重 估 式 (7-120)、 式 (7-121) 和 式 (7-122) 加 以 
修正 。 设 工 个 观察 值 序列 为 0 ,1=1，…, L, HHO =00, 0P, =, 0P, BRERA 
观察 值 序列 独立 ， 此 时 有 







































































P(0lA) = T Po” | A) (7-140) 
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模型 初始 化 


























Viterbi 算 法 
求 状态 序列 











根据 状态 序 
taith Q9 


列 


















重 估 公 式 








VR] 





图 7-15 ”一 种 HMM 参数 估计 方法 示意 














由 于 重 估 公式 是 以 不 同事 件 的 频率 为 基础 的 ， 因 此 ， 对 工 个 训练 序列 ， 重 估 公 式 修正 为 


L 
7,7 Pa GBPGV/P(01A)  D1sisN (7-141) 


L 了 -1 


a” (i) agb; CO BO G)/PCO 1 A) 
isi t-1 


a; = - 1i, j<N (7-142) 
Y Ya? (Gg? G)/P(0 | A) 
f=1 tz1 





T, 


202,9 a (jg? () /P(0 | A) 





7 ]zxjzN; 1<k<M (7-143) 
X X aP Gg GzPCOM LA) 


3. 比例 因子 问题 

在 前 向 -后 向 算法 和 Baum-Welch 算法 中 ,都 有 a，(i) FB, G) 的 递归 计算 ， 因 为 所 有 
SURE, Alba, (i) ( 随 着 i 的 增加 ) AB, G) 〈 随 着 上 的 减少 ) 都 迅速 趋向 于 零 ， 为 
了 解决 这 种 下 洲 (Underflow) 问题 ， 必 须 采 取 增 加 比例 因子 (Scaling) 的 方法 ， 对 有 关 算 
法 加 以 修正 ， 处 理 过 程 为 

(1) 对 a 的 处 理 








o, (i) -mjb; (0,) Dzxi«N (7-144) 
a; (i) = E, A 2a 1<i<N (7-145) 
2,m0 


N 


eu) = PX ' (Das Jo Oa) IxjeN; t=1, 2, +, T-1 (7-146) 
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N 
an) = eaa > aa) Aa4)/9,, IsjsN; t=1, 2, +, T-1 
j=l 





(7-147) 
(2) XJ 8 的 处 理 
Br (i) =1 ]zixN (7-148) 
Br (i) =1 1<i<N (7-149) 
BG) = Y ay) 0, R 1<i<N; t=T-1, =, 1 (7-150) 
B! (i) =B, (i) /®,,, — 1<i<N; t=T-1, , 1 (7-151) 














(3) 常用 计算 公式 的 处 理 ”对 a 和 p 做 了 上 述 处 理 之 后 ， 为 了 保持 原 有 公式 计算 的 结果 
不 变 ， 必 须 在 常用 计算 公式 中 做 相应 处 理 ， 以 消去 比例 因子 的 影响 。 
1) 概率 P (OLA) 的 计算 公式 : H o 的 处 理 过 程 易 推出 

















a, (i) =a, (i) / 0605) (7-152) 
而 
®, = Xa - 5 [X« 5 Ga; ]b,(0,) = $ aD PPB.) (7-153) 
因此 
» 50 = GO (7-154) 
即 E 
P(0lA) = SG) = pD, D, (7-155) 
lgP(012) = Sd (7-156) 
2) 重信 公式 : 由 B 的 处 理 易 知 7 
B/ (i) uA (7-157) 
因此 ， 重 佑 (多 个 训练 序 T Bf, XX (7-120), sR (7-121) 和 式 (7-122) 变 为 
T, = | » ai BIG) 1<i<N (7-158) 
HE: 5 Lac" Ga CO BAS? O/B 
Geet a 1<i, j<N (7-159) 
2 2 O DBO G) 
> y a O (DBO G) 
by = iis l<j<N,1<k<M (7-160) 
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4. HMM 的 其 他 形式 

在 上 面 几 节 中 所 讨论 的 HMM ， 由 于 其 观察 值 是 M 个 离散 可 数 的 观察 值 中 的 一 个 ， 因 而 
称 之 为 离散 的 HMM， 茶 个 状态 7 所 对 应 的 观察 值 的 统计 特性 是 由 一 组 概率 b, Ck = 1 ， 
2, =, M) 来 描述 的 。 除 了 这 种 经 典 离散 HMM 以 外 ，HMM 还 有 其 他 各 具 特 色 的 形式 ， 由 
于 经 典 离散 HMM 主要 由 图 7-13 所 示 的 两 部 分 组 成 ， 而 其 他 形式 的 HMM 都 是 从 这 两 部 分 出 
发 ， 对 这 两 部 分 进行 不 同 的 修正 而 产生 的 。 例 如 ， 如 果 修 正 图 7-13 所 描述 的 第 二 部 分 由 B 
描述 的 随机 过 程 ， 可 以 得 到 连续 的 和 半 连 续 的 HMM。 所 谓 连 续 HMM， 是 指 观察 值 为 一 个 连 
续 随 机 变量 YX， 因此 ， 某 一 个 状态 / 对 应 的 观察 值 统 计 特 性 由 一 个 观察 值 概率 密度 函数 
b; (X) d&m s 而 半 连 续 HMM 可 以 认为 是 HMM 的 一 种 一 般 形 式 ， 连 续 HMM 和 离散 HMM 都 
是 其 特例 。 而 且 ， 半 连续 HMM 在 一 定 程 度 上 兼 有 两 者 的 长 处 。 因 为 HMM 对 连续 向 量 使 用 
离散 HMM ， 信 息 丢 失 较 大 ， 但 是 如 果 使 用 连续 HMM, ， 需 要 使 用 较 多 的 概率 密度 函数 进行 混 
合 ， 模 型 复杂 ， 运 算 量 大 ， 并 且 需 要 使 用 更 多 的 训练 数据 才能 得 到 可 靠 的 模型 。 如 果 对 图 
7-13 所 示 的 第 一 部 分 ， 也 就 是 由 m. A 描述 的 马尔 可 夫 链 加 以 修正 ， 就 可 以 得 到 另外 三 种 主 
要 的 HMM, ， 即 利用 Gibbs 分 布 取代 马尔 可 夫 链 的 HMM; 在 马尔 可 夫 链 中 加 入 状态 驻 留 时 间 
参数 的 HMM ， 以 及 二 阶 HMM。 此 外 ， 还 有 其 他 一 些 形式 的 HMM 存在 于 各 个 应 用 领域 ,在 
TEA FP 


7.4.6 小 结 


HMM 是 马尔 可 夫 链 (Markov Chain) 的 推广 ， 在 HMM 中 观察 到 的 事件 与 状态 通过 一 组 
概率 分 布 相 联系 ， 是 一 个 双重 随机 过 程 。 其 中 一 个 是 马尔 可 夫 链 ， 它 描述 了 状态 之 间 的 转 
移 ; 另 一 个 随机 过 程 描述 了 状态 和 观察 值 之 间 的 统计 对 应 关系 。HMM 的 状态 是 隐 含 的 ， 可 
以 观察 到 的 是 各 个 状态 产生 的 非 确定 的 观察 值 ， 因 此 称 为 隐 马 尔 可 夫 模型 。 最 初 HMM 在 语 
音 识别 中 得 到 了 广泛 的 应 用 ， 后 来 随 着 它 的 发 展 ， 使 得 很 多 研究 人 员 开 始 尝试 将 HMM 用 于 
目标 识别 、 人 脸 识别 、 光 字符 识别 (OCR) 等 领域 。 

人 的 面部 图 像 序列 与 人 的 语音 序列 特点 是 一 样 的 ， 是 有 时 间 顺 序 且 是 不 可 逆 的 过 程 ， 因 
而 可 以 采用 无 跨越 从 左 到 右 的 HMM ， 并 在 这 些 模型 中 限定 一 个 起 始 状态 ， 每 个 状态 只 能 向 
右 侧 编号 高 一 位 的 状态 或 本 状态 转移 ， 因 此 这 一 模型 的 矩阵 中 ， 只 有 主 对 角 元 素 和 右 副 对 角 
元 素 允 许 非 零 ， 而 且 该 矩阵 比较 稀 琉 ， 因 此 大 大 减少 了 异型 参数 估 值 的 计算 量 。Sakaguchi 
等 人 首先 把 HMM 应 用 到 表情 识别 中 ， 取 得 了 较 好 的 效果 5 。 现 在 许多 研究 机 构 都 在 运用 
HMM 来 对 人 脸面 部 表情 图 像 序列 进行 分 析 与 识别 ， 参 考 文献 [37] 介 绍 了 利用 HMM 这 样 的 
方法 能 够 比较 精确 地 描绘 表情 的 变化 本 质 和 动态 性 能 ， 实 现任 意 时 序 长 短 的 人 脸 表 情 分 析 和 
识别 ; 与 基于 静态 图 像 的 表情 识别 相 比 ， 不 论 在 理论 上 还 是 在 实践 上 都 取得 了 显著 的 效果 。 
























































































































































7.5 ”人工 神经 网 络 


人 工 神经 网 络 的 研究 与 计算 的 研究 几乎 是 同步 发 展 的 。1943 年 ， 心 理学 家 McCulloch 和 
数学 家 Pitts 合作 提出 了 形式 神经 元 的 数学 模型 ， 成 为 人 工 神经 网 路 研究 的 开端 。1949 年 ， 
心理 学 家 D. O. Hebb 提出 了 神经 元 之 间 突 触 联系 强度 可 变 的 假设 ， 并 据 此 提出 神经 元 的 学 习 
准则 ， 为 神经 网 络 的 学 习 算法 商定 了 基础 。20 世纪 50 年 代 末 ，Rosenblatt 提出 了 感知 器 模 
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型 ， 首 次 把 神经 网 络 的 研究 付 诸 工程 实践 。1982 4E, Hopfield 提出 了 神经 网 络 的 一 种 数学 模 
型 ， 引 入 了 能 量 函 数 的 概念 ， 人 研究 了 网 络 的 动力 学 性 质 ; 紧 接 着 又 设计 出 用 电子 线路 实现 这 
一 网 络 的 方案 ， 同 时 开拓 了 神经 网 络 用 于 联想 记忆 和 优化 计算 的 新 途径 ， 大 大 促进 了 神经 网 
络 的 研究 。1986 4E, Rumelhart 及 LeCun 等 学 者 提出 了 多 层 感 知 絮 的 反 向 传播 计算 ， 克服 了 
当初 阻碍 感知 器 模型 继续 发 展 的 重要 障碍 。 现 在 ， 神 经 网 络 的 应 用 已 渗透 到 多 个 领域 ， 如 智 
能 控制 、 模 式 识别 、 计 算 机 视觉 、 优 化 计算 、 知 识 处 理 、 生 物 医学 工程 等 。 


7.5.1 概述 


人 工 神经 网 络 (ANN) 是 由 大 量 处 理 单元 (人工 神经 元 、 人 处 理 元 件 、 电 子 元 件 、 光 电 
元 件 等 ) 经 广泛 互 连 而 组 成 的 人 工 网 络 ， 用 来 模拟 脑 神经 系统 的 结构 和 功能 。 它 是 在 现代 
神经 科学 研究 的 基础 上 提出 来 的 ， 反映 了 人 脑 功 能 的 基本 特性 。 在 人 工 神 经 网 络 中 ,信息 的 
处 理 是 由 神经 元 之 间 的 相互 作用 来 实现 的 ， 知 识 与 信息 的 存储 表现 为 网 络 元 件 互 连 间 分 布 式 
的 物理 联系 ， 网 络 的 学 习 和 识别 取决 于 各 神经 元 连接 权 值 的 动态 演化 过 程 。 

l. 人 工 神 经 元 

正如 生物 神经 元 是 生物 神经 网 络 的 基本 处 理 单元 一 样 ， 人 工 神 经 元 (简称 为 神经 元 ) 
是 组 成 人 工 神经 网 络 的 基本 人 处 理 单元 。 在 构造 人 工 神 经 网 络 时 ， 首 先 应 该 考虑 的 问题 是 如 何 
构造 神经 元 。 在 对 生物 神经 元 的 结构 、 特 性 进行 深入 人 研究 的 基础 上 ， 心 理学 家 麦克 洛 奇 
(W. McCulloch) 和 数理 逻辑 学 家 皮 兹 (W. Pitts) 于 1943 年 首先 提出 了 一 个 简化 的 神经 元 
模型 ， 称 为 M-P 模型 。 图 7-16 所 示 为 一 个 基本 的 人 工 神 经 元 的 结构 。 
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图 7-16 人工 神经 元 模型 





人 工 神 经 元 又 称 为 处 理 单元 、 节 点 或 短期 记忆 。 从 外 部 环境 或 别 的 神经 元 的 输出 构成 输 
人 向 量 (Gm. ty ce. X), FE x, 为 别 的 神经 元 的 输出 或 兴奋 水 平 。 连 接 两 个 神经 元 的 可 
调 值 称 之 为 权 值 或 长 期 记忆 。 所 有 和 神经 元 / 相连 接 的 权 值 构成 向 量 W= Qa. wa, os 
wa)”, FEP 邮 代 表 处 理 单元 ; 和 7 之 间 的 连接 权 值 。 通 常 还 加 上 一 个 域 值 常数 09,。 此 时 神经 
单元 的 计算 过 程 可 以 表示 为 

















y=f (Wx—-0,) (7-161) 
或 者 写成 


y, «fl DX - 6,) (7-162) 
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通常 取 下 列 函 数 之 一 : 
(1) 线性 函数 
f(x) =a'x (7-163) 
(2) PPR PE K% 
Y xzy 
f (x) -| Ix| «y (7-164) 
-y eS 
AP, y 为 神经 元 的 最 大 输出 值 。 
(3) 域 值 型 函数 
Pier d (7-165) 
0 x«0 
AF, 0 HMAT. 
(4) 最 为 常用 的 Sigmoid PRA 
f@ = 4 (7-166) 
与 此 类 似 的 还 有 双 曲 函数 
fa) = (7-167) 





人 工 神 经 网 络 是 由 神经 元 广泛 互 连 构成 的 ， 不 同 的 连接 方式 就 构成 了 网 络 的 不 同 连 接 模 
型 ， 常 用 的 有 以 下 几 种 : 

e 前 向 网 络 : 前 向 网 络 又 称 为 前 馈 网 络 。 在 这 种 网 络 中 ， 神 经 元 分 层 排 列 ， 分 别 组 成 
A AJ. PEJE (又 称 隐 层 。 可 有 和 多 层 ) 和 输出 层 。 每 一 层 神经 元 只 接收 来 自前 一 层 神 经 
元 的 输入 。 输 入 信息 经 各 层 变 换 后 ， 最 终 在 输出 层 输出 。 

e 反馈 网 络 : 即 从 输出 层 到 输入 层 有 反馈 ， 这 种 网 络 与 上 一 种 网 络 的 区 别 仅仅 在 于 ， 
输出 层 上 的 某 些 输出 信息 又 作为 输入 信息 送 入 到 输入 层 的 神经 元 上 。 

e 层 内 有 互 连 的 网 络 : 在 前 面 两 种 网 络 中 ， 同 一 层 上 的 神经 元 都 是 相互 独立 的 ， 不 发 
生 横 向 联系 。 而 在 这 一 种 网 络 中 ， 同 一 层 上 的 神经 元 可 以 互相 作用 。 这 样 安排 的 好 处 是 ， 可 
以 限制 每 层 内 能 同时 动作 的 神经 元 数 ， 亦 即 可 以 把 每 层 内 的 神经 元 分 为 若干 组 ， 让 每 组 作为 
一 个 整体 来 动作 。 例 如 ， 可 以 利用 同 层 内 神经 元 间 横 向 抑制 的 机 制 把 层 内 具有 最 大 输出 的 神 
经 元 挑选 出 来 ， 从 而 使 其 他 神经 元 处 于 无 输出 的 状态 。 

e 互连网 络 : 在 这 种 网 络 中 ， 任 意 两 个 神经 元 之 间 都 可 以 有 连接 。 在 无 反馈 的 前 向 网 
络 中 ， 信 息 一 旦 通过 某 个 神经 元 ， 过 程 就 结束 了 ， 而 在 该 网 络 中 ， 信 息 可 以 在 神经 元 之 间 反 
复 往返 地 传递 ， 网 络 一 直 处 在 一 种 改变 状态 的 动态 变化 之 中 。 从 某 初 态 开始 ， 经 过 若干 次 的 
变 比 ， 才 会 达到 某 种 平衡 状态 ， 根 据 网 络 的 结构 及 神经 元 的 特性 ， 有 时 还 有 可 能 进入 周期 振 
荡 或 其 他 状态 。 

2. 人 工 神 经 网 络 的 特征 及 分 类 

(1) 人 工 神经 网 络 的 主要 特征 

1) 能 较 好 地 模拟 人 的 形象 思维 。 逻 辑 思维 与 形象 思维 是 人 类 思维 中 两 种 最 重要 的 思维 
方式 ， 人 工 神经 网 络 是 对 人 脑 神经 系统 结构 及 功能 的 模拟 ， 以 信息 分 布 与 并 行 处 理 为 其 主要 
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特色 ， 因 而 可 以 实现 对 形象 思维 的 模拟 。 

2) 具有 大 规模 并 行 协同 处 理 能 力 。 在 人 工 神 经 网 络 中 ， 每 一 个 神经 元 的 功能 和 结构 都 
是 很 简单 的 ， 但 由 于 神经 元 的 数量 巨大 ， 而 且 神 经 元 之 间 可 以 并 行 、 协 同 地 工作 ， 进 行 集体 
计算 ， 这 就 在 整体 上 使 网 络 具有 很 强 的 处 理 能 力 。 另 外 ， 由 于 神经 元 通常 都 很 简单 ， 这 就 为 
大 规模 集成 的 实现 提供 了 方便 。 

3) 具有 较 强 的 容错 能 力 和 联想 能 力 。 在 人 工 神经 网 络 中 ， 任 何 一 个 神经 元 及 任何 一 个 
连接 对 网 络 整体 功能 的 影响 都 是 十 分 微小 的 ， 网 络 的 行为 取决 于 多 个 神经 元 协同 行动 的 结 
果 ， 其 可 靠 性 来 自 这 些 神经 元 统计 行为 的 稳定 性 ， 具 有 统计 规律 性 。 因 此 ， 当 少量 神经 元 或 
它们 的 连接 发 生 故 障 时 ， 对 网 络 功能 的 影响 是 很 微小 的 ， 这 正如 人 脑 中 经 党 有 脑 细胞 死亡 ， 
但 并 未 影响 人 脑 的 记忆 、 思 维 等 功能 一 样 。 神 经 网 络 的 这 一 特性 使 得 网 络 在 整体 上 具有 较 强 
的 鲁 棒 性 〈 硬 件 的 容错 性 ) 。 另 外 ， 在 神经 网 络 中 ， 信 息 的 存储 与 处 理 (计算 ) 是 合 二 为 一 
的 ， 即 信息 的 存储 体现 在 神经 元 互 连 的 分 布 上 。 这 种 分 布 式 的 存储 ， 不 仅 在 某 一 部 分 受到 损 
坏 时 不 会 使 信息 遭 到 破坏 ， 得 以 尽快 恢复 ， 增 强 网 络 的 容错 性 ， 而 且 能 使 网 络 对 带 有 噪声 或 
缺损 的 输入 有 较 强 的 适应 能 力 ， 增 强 网 络 的 联想 及 全 息 记 忆 能 

4) 具有 较 强 的 学 习 能 力 。 它 能 根据 外 界 环境 的 变化 修改 自己 的 行为 ， 并 且 能 依据 一 定 
的 学 习 算 法 自动 地 从 训练 实例 中 学 习 。 它 的 学 习 主 要 有 两 种 方式 ， 即 有 教师 的 学 习 与 无 教师 
的 学 习 。 所 谓 有 教师 的 学 习 是 指 ， 由 环境 向 网 络 提供 一 组 样 例 ， 每 一 个 样 例 包 括 输 入 及 标准 
输出 两 部 分 ， 如 果 网 络 对 输入 的 响应 不 一 致 ， 则 通过 调节 连接 权 值 使 之 逐步 接近 样 例 的 标准 
输出 ， 直 到 它们 的 误差 小 于 某 个 预先 指定 的 闵 值 为 止 。 所 谓 无 教师 的 学 习 是 指 ， 事 先 不 给 出 
标准 样 例 ， 直 接 将 网 络 置 于 环境 之 中 。 学 习 阶 段 与 工作 阶段 融 为 一 体 ， 这 种 边 学 习 边 工 作 的 
特征 与 人 的 学 习 过 程 相 类 似 。 

(2) 人 工 神经 网 络 的 分 类 GENIE, 已 经 开发 出 了 几 十 种 神经 网 络 模型 ， 从 不 同 角 度 
进行 划分 ， 可 以 得 到 不 同 的 分 类 结果 : 

1) 阁 按 网 络 的 拓扑 结构 划分 ， 则 可 分 为 无 反馈 网 络 与 有 反馈 网 络 。 

2) 耕 按 网 络 的 学 习 方法 划分 ， 则 可 分 为 有 教师 的 学 习 网 络 与 无 教师 的 学 习 网 络 。 

3) 若 按 网 络 的 性 能 划分 ， 则 既 可 以 分 为 连续 型 与 离散 型 网 络 ， 又 可 分 为 确定 型 与 随机 
型 网 络 。 

4) 知 按 连 接 突 触 的 性 质 划 分 ， 则 可 分 为 一 阶 线性 关联 网 络 与 高 阶 非 线性 关联 网 络 。 

(3) 人 工 神 经 网 络 的 学 习 ”人 工 神经 网 络 的 学 习 分 为 有 监督 学 习 和 无 监督 学 习 。 有 监督 
学 习 ， 是 指 在 学 习 时 ， 有 一 个 内 在 的 或 外 在 的 “教师 ”， 具 有 更 高 的 动机 和 指挥 的 自 矫 正 学 
习 。 无 监督 学 习 ， 则 是 对 所 有 实时 和 短 时 的 感知 器 输入 进行 预 处 理 ， 这 种 预 处 理 是 无 心 
(Without Conscience) 的 ， 并 且 有 关联 记忆 (Associative Recall) 。 这 两 种 学 习 在 人 脑 中 是 并 
行进 行 的 ， 不 像 传 统 的 人 工 神经 网 络 是 在 不 同 的 结构 上 独立 进行 的 。 

1) 有 监督 学 习 人 工 神经 网 络 : 有 监督 学 习 神 经 元 7 的 输入 为 《xi ，x;，…，x) ， 与 输 
出 神经 元 7 的 权 为 (wi ，wa，…，wi,) ， 它 的 模型 如 图 7-17 所 示 ， 通 过 学 习 使 输出 与 要 求 
的 值 相等 。 

在 多 层 神经 网 络 中 ， 如 非 线 性 输入 、 输 出 关系 取 y; = sign (u) 时 ， 则 为 感知 器 模型 ; 
如 输入 、 输 出 关系 取 单 调 上 升 函 数 时 ， 为 反 向 传播 BP 网 络 。 它 们 都 是 前 馈 式 神经 网 络 ， 有 
时 还 称 为 “概率 型 神经 网 络 ” (PNN) 。 如 采用 反馈 式 神 经 网 络 结构 ， 在 每 个 神经 元 之 间 都 
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有 连接 权 或 每 一 层 之 间 的 神经 元 都 互相 连接 ， 并 满足 人 工 神经 网 络 的 三 大 要 素 (f (Qu) 的 
函数 类 型 、 神 经 网 络 的 结构 、 学 习 算 法 ) ， 则 称 为 “ 霍 普 菲 尔 德 模型 ”。 

2) 无 监督 学 习 人 工 神经 网 络 : 在 有 监督 学 习 的 人 工 
神经 网 络 中 ， 神 经 网 络 的 连接 权 的 调整 是 为 了 使 能 量 函 


a 1 €€ » * 
BLE, = (LY) BMG (二 是 “教师 "，i=1，2， 
isi 


Us 上) 。 而 在 无 监督 学 习 的 人 工 神经 网 络 中 ， 在 训练 集 
中 没有 “教师 ”i;， 连 接 权 的 调整 反映 了 训练 集 本 里 的 
性 质 。 

赫 布 学 习 规则 是 无 监督 学 习 中 的 常用 规则 。 赫 布 学 习 规则 为 

Aw; = TWiyi 

AH, x, 为 一 个 神经 元 的 输出 ; y, 为 另 一 个 神经 元 的 输出 ; 7 为 调整 步 长 ，Awi; 为 x;、y; PE 
经 元 之 间 的 连接 权 的 调整 值 。 在 无 “教师 ”上 和 4d 时 ， 神 经 元 之 间 的 连接 权 也 可 自动 学 习 。 
它 是 一 个 局 部 的 权 的 调整 。 这 样 的 学 习 ， 最 终 导 致 了 神经 网 络 内 部 的 自 组 织 ， 从 无 序 到 有 
序 ， 用 赫 布 学 习 规则 来 学 习 的 权 可 以 有 联想 、 记 忆 的 作用 。 在 式 中 , y, 加 入 了 一 个 “ 教 
师 ”， 就 变 成 了 有 监督 学 习 ，Aw; =x; (yt) 

(4) 神经 网 络 模型 ”神经 网 络 模 型 是 人 工 神 经 网 络 研究 的 一 个 重要 方面 ， 目 前 已 经 开发 
出 了 多 种 不 同 的 模型 。 由 于 这 些 模型 大 都 是 针对 各 种 具体 应 用 开发 的 ， 因 而 差别 较 大 ， 至 今 
尚 无 一 个 通用 的 神经 网 络 模型 。 

1) 感知 器 : 感知 器 的 学 习 是 神经 网 络 最 典型 的 学 习 。 目 前 ， 在 控制 上 应 用 的 是 多 层 
前 馈 网 络 。 下 面 介绍 的 是 一 种 感知 器 模型 ， 学 习 算 法 是 BP 算法 ， 属 于 有 教师 学 习 算 法 。 
一 个 有 教师 的 学 习 系 统 如 图 7-18 所 示 。 这 种 学 习 系统 分 成 三 个 部 分 : 输入 部 、 训 练 部 和 


输出 部 。 
x 
= 输入 部 




















图 7-17 ”监督 学 习 人 工 神经 网 络 模 型 
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信号 (期望 输出 信号 ) 


图 7-18 神经 网 络 学 习 系 统 框图 











输入 部 接收 外 来 的 输入 样本 x， 由 训练 部 进行 网 络 的 权 值 w 调整 ， 然 后 由 输出 部 输出 结 
果 。 在 这 个 过 程 中 ， 期 望 的 输出 信号 可 以 作为 教师 信号 输入 ， 由 该 教师 信号 与 实际 输出 进行 
比较 ， 产 生 的 误差 去 控制 修改 权 值 w。 

学 习 结 构 如 图 7-19 所 示 。 

在 图 7-19 P, x, x, cn, ox, 是 输入 样本 信号 ; w, wm, 0, w, 是 权 系 数 。 输 入 样本 
fas x, 可 以 取 离散 值 “0” 或 “1”。 输 入 样本 信号 通过 权 值 作用 ,在 w 处 产生 输出 结果 
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图 7-19 神经 网 络 学 习 结 构 框 图 





>wix;， 即 有 
u= X wX; =W,X, + Ww Ny + + WX, (7-168) 

再 把 期 望 输出 信号 y(t) 和 w 进行 比较 ， 从 而 产生 误差 信号 e。 即 权 值 调整 机 构 根 据 误 
Æ e 去 对 学 习 系统 的 权 系 数 进行 修改 ， 修 改 方向 应 使 误差 。 变 小 ， 不 断 进行 下 去 ， 直 到 误差 
e 为 零 ， 这 时 实际 输出 值 w 和 期 望 输 出 值 y (0) 完全 一 样 ， 则 学 习 过 程 结束 。 

神经 网 络 的 学 习 一 般 需 要 多 次 重复 训练 ， 使 误差 值 逐 渐 趋 向 零 ， 最 后 到 达 零 ， 这 时 才 会 
使 输出 与 期 望 一 致 。 故 而 神经 网 络 的 学 习 是 消耗 一 定时 间 的 ， 有 的 学 习 过 程 要 重复 很 多 次 ， 
甚至 达 万 次 级 。 原 因 在 于 神经 网 络 的 权 系 数 w 有 很 多 分 量 w; ，w,;,，…，w,， 也 就 是 说 它 是 
一 个 多 参数 修改 系统 。 系 统 参数 的 调整 就 必定 耗 时 耗 量 。 目 前 ， 提 高 神经 网 络 的 学 习 速 度 、 
减少 学 习 重 复 次 数 是 十 分 重要 的 研究 课题 ， 也 是 实时 控制 中 的 关键 问题 。 

感知 器 的 学 习 目 的 是 在 于 修改 网 络 中 的 权 值 ， 使 网 络 对 于 所 输入 的 模式 样本 能 正确 分 
类 。 当 学 习 结束 时 ， 也 即 神经 网 络 能 正确 分 类 时 ， 显 然 权 系数 就 反映 了 同类 输入 模式 样本 的 
共同 特征 。 换 名 话说 ， 权 系数 就 是 存储 了 的 输入 模式 。 由 于 权 系 数 是 分 散 存在 的 ， 故 神经 网 
络 自然 而 然 就 有 分 布 存储 的 特点 。 

前 面 的 感知 器 的 传递 函数 是 阶 跃 函数 ， 所 以 它 可 以 用 作 分 类 器 ， 但 其 学 习 算 法 因 其 传递 
函数 的 简单 而 存在 局 限 性 。 

感知 器 学 习 算 法 相当 简单 ， 并 且 当 函数 线性 可 分 时 保证 收敛 。 但 它 也 存在 问题 ， 即 函数 
不 是 线性 可 分 时 ， 则 求 不 出 结果 ; 另外 ， 不 能 推广 到 一 般 前 馈 网 络 中 。 

为 了 克服 存在 的 问题 ， 所 以 人 们 提出 另 一 种 算法 ， 即 梯度 算法 [也 称 最 小 均 方 (LMS) 
法 ]。 为 了 能 实现 梯度 算法 ， 故 把 神经 元 的 激发 函数 改 为 可 微分 函数 ， 例 如 Sigmoid 函数 ， 
非 对 称 Sigmoid 函数 为 



















































































f(x) =1/(1 +e-x) (7-169) 
对 称 Sigmoid 函数 为 
f(x) =(1 -e-x«)/(1 +e-x) (7-170) 
对 于 给 定 的 样本 集 x (i = 1, 2, +, n), 梯度 算法 的 目的 是 寻找 权 值 w”, Eia 
flw*, x, | 与 期 望 输出 y, 尽 可 能 接近 。 
设 误差 e。 采 用 下 式 表示 : 
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1 n 
c= LD) (1171) 
i=l 


AP, yflw”, x; EX i NER x, K o y 是 对 应 第 i 个 样本 x 的 期 望 输出 。 
要 使 误差 。 最 小 ， 可 先 求 取 e 的 梯度 ， 即 











” ge 
dis 5 一 (7-172) 
ðw fizi ðw 
式 中 
1 
€, 5 -y (7-173) 


4 Uu, —WX,, 则 有 


de, ðe, ðu, oe, dy’, 








= -— X, (7-174) 
ðw ðu, ðw dy, ðw 
即 有 
um "uM" 7-75 
"C AM Me (7- ) 
最 后 有 按 负 梯 度 方向 修改 权 值 w 的 修改 规则 为 
Wri = Wy thd, Gi - Y' Mf (ur) (7-176) 
也 可 写成 
w, =w; "ui e (7477) 





20 = Ww 


在 式 (7-176) 和 式 (7-177) 中 , 人 是 权重 变化 率 ， 它 视 情 况 不 同 而 取 值 不 同 ， 一 般 取 0 ~1 
之 间 的 小 数 。 

很 明显 ， 梯 度 法 比 原 来 感知 器 的 学 习 算法 进 了 一 大 步 。 其 关键 在 于 两 点 : 

中 神经 元 的 传递 函数 采用 连续 的 s 型 函数 ， 而 不 是 阶 跃 函数 。 

@ 对 权 系 数 的 修改 采用 误差 的 梯度 去 控制 ， 而 不 是 采用 误差 去 控制 ， 故 而 有 更 好 的 动态 
特 能 ， 即 加 强 了 收敛 进程 。 但 是 梯度 法 对 于 实际 学 习 来 说 ， 仍 然 是 感觉 太 慢 ， 所 以 这 种 算法 
仍然 是 不 理想 的 。 

反 向 传播 算法 也 称 BP 算法 。 由 于 这 种 算法 在 本 质 上 是 一 种 神经 网 络 学 习 的 数学 模型 ， 
所 以 有 时 也 称 为 BP 模型 。 

BP 算法 是 为 了 解决 多 层 前 向 神经 网 络 的 权 系 数 优化 而 提出 来 的 ， 所 以 BP 算法 也 通常 
暗示 着 神经 网 络 的 拓扑 结构 是 一 种 无 反馈 的 多 层 前 向 网 络 ， 故 而 有 时 也 称 无 反馈 多 层 前 向 网 
络 为 BP BUM, 

2) BP BU. BP 模型 是 一 种 用 于 前 向 多 层 神经 网 络 的 反 向 传播 学 习 算 法 ， 由 和 鲁 梅 尔 哈 
特 (D，Ruvmelhar) 和 麦克 莱 伦 德 ( McClelland) 于 1985 年 提出 。BP 算法 用 于 多 层 网 络 ， 网 络 
中 不 仅 有 输入 层 节 点 及 输出 层 节 点 ， 而 且 还 有 一 层 至 多 层 的 隐 必 节点， 如 图 7-20 所 示 。 

当 有 信息 向 网 络 输入 时 ， 信 息 首 先 由 输入 层 传 至 隐 层 节点 ， 经 特性 函数 作用 后 ， 再 传 至 
下 一 隐 层 ， 直 到 最 终 传 至 输出 层 进行 输出 ， 其 间 每 经 过 一 层 都 要 由 相应 的 特性 函数 进行 变 
换 ， 节 点 的 特性 函数 通常 选用 S 型 函数 ， 例 如 : 
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f(x) — (7-178) * 
1 +e 


算法 学 习 的 目的 是 对 网 络 的 连接 权 值 进 
行 调整 ， 使 得 对 任 一 输入 都 能 得 到 所 期 望 的 
输出 。 学 习 的 方法 是 用 一 组 训练 样 例 对 网 络 
进行 训练 ， 每 一 个 样 例 都 包括 输入 及 期 望 的 n 
输出 两 部 分 。 训 练 时 ， 首 先 把 样 例 的 输入 信 
息 输 入 到 网 络 中 ， 由 网 络 从 第 一 个 隐 层 开始 ， 
逐 层 地 进行 计算 ， 并 向 下 一 层 传递 ， 直 至 传 bo: eee 
至 输出 层 ， 其 间 每 一 层 神经 元 只 影响 下 一 层 
神经 元 的 状态 。 然 后 ， 以 其 输出 与 样 例 的 期 望 输出 进行 比较 ， 如 果 它 们 的 误差 不 能 满足 要 
求 ， 则 沿 着 原来 的 连接 通路 逐 层 返 回 ， 并 利用 两 者 的 误差 按 一 定 的 原则 对 各 层 节点 的 连接 权 
值 进行 调整 ， 使 误差 逐步 减 小 ， 直 到 满足 要 求 时 为 止 。 

BP 算法 学 习 的 具体 步骤 : 

e 从 训练 样 例 集 中 取 一 样 例 ， 把 输入 信息 输入 到 网 络 中 。 

© 由 网 络 分 别 计算 各 层 节 点 的 输出 。 

e 计算 网 络 的 实际 输出 与 期 望 输出 的 误差 。 

e 从 答 出 层 反 向 计算 到 第 一 个 隐 层 ， 按 一 定 原 则 向 减 小 误差 方向 调整 网 络 的 各 个 连接 
权 值 。 

© 对 训练 样 例 集中 的 每 一 个 样 例 重 复 以 上 步骤 ， 直 到 对 整个 训练 样 例 集 的 误差 达到 要 
求 时 为 止 。 

3) Hopfield 模型 : 前 面 讨论 的 两 种 模型 都 是 前 问 神 经 网 络 ， 从 输出 层 至 输入 层 无 反馈 ， 
这 就 不 会 使 网 络 的 输出 陷入 从 一 个 状态 到 男 一 个 状态 的 无 限 转换 中 ， 因 而 人 们 对 它 的 研究 是 
着 重 学 习 方 法 的 研究 ， 而 较 少 关 心 网 络 的 稳定 性 。 

Hopfield $H] Je E W 3E ZR f ( Hopfield ) 分 别 
T 1982 4E & 1984 年 提出 的 两 个 神经 网 络 模型 : 
一 个 是 离散 的 ; 男 一 个 是 连续 的 。 但 它们 都 属 
于 反馈 网 络 ， 即 它们 从 输入 层 至 输出 层 都 有 反 
馈 存 在 。 图 7-21 所 示 为 一 个 单 层 反馈 神经 网 络 。 

在 反馈 网 络 中 ， 由 于 网 络 的 输出 要 反复 地 
作为 输入 送 入 网 络 中 ， 这 就 使 得 网 络 的 状态 在 
不 断 地 改变 ， 因 而 就 提出 了 网 络 的 稳定 性 问题 。 "Uu 
所 谓 一 个 网 络 是 稳定 的 ， 是 指 从 某 一 时 刻 开始 ， 

网 络 的 状态 不 再 改变 。 设 用 X(t) 表示 网 络 在 时 
刻 上 的 状态 ， 如 果 从 :=0 的 任 一 初 态 XY(0) 开始 ， 存 在 一 个 有 限 的 时 刻 上， 使 得 从 此 时 刻 开始 
神经 网 络 的 状态 不 再 发 生 改 变 ， 即 

X(t + At) = X(t) At > 0 (7-179) 
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Al7-21 单 层 反馈 神经 网 络 











就 称 该 网 络 是 稳定 的 。 
下 面 给 出 Hopfiled 模型 的 算法 : 
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e 设置 互 连 权 值 








we los dem) (7-180) 
0, i=j,i2zlj<n) 
SU, x; 为 s REIN PARI E, ERTL +1 Bh -1(0), PERISH m, T BON no 
e. 未 知 类 别 样 本 初始 化 





y,(0) = x, ]zxizn (7-181) 
AP, y, COSS ei ide c INAH, “4 =O, y, CO) SUE D s i RSS x; 为 输入 样 
本 的 第 i 个 分 量 。 
e ERE BCR. 


7.5.2 人工 神经 网 络 集成 


1. 概述 

人 工 神 经 网 络 由 于 其 在 处 理 非 线 性 问题 上 所 表现 出 来 的 优越 性 能 而 得 到 很 多 领域 的 广泛 
重视 和 成 功 应 用 ， 然 而 人 工 神 经 网 络 存在 的 不 足 也 非常 明显 ， 包 括 如 何 最 优 地 构造 一 个 神经 
网 络 模型 ， 如 何 保证 神经 网 络 的 泛 化 能 力 等 。 造 成 神经 网 络 不 足 的 根本 原因 是 ， 其 自身 缺乏 
严格 的 理论 作 指导 ， 神 经 网 络 在 构造 和 训练 过 程 中 存在 较 多 的 不 确定 性 。 例 如 : 多 层 前 馈 神 
经 网 络 中 隐 层 的 数目 以 及 各 隐 层 神经 元 数目 、 连 接 权 值 和 浆 值 的 初始 值 等 都 是 不 确定 的 。 如 
何 最 优 地 构造 和 训练 一 个 神经 网 络 ， 更 多 的 是 依靠 使 用 者 的 经 验 和 不 断 的 试验 调整 。 

1990 年 ，Hansen 和 Salamonl5 开创 性 地 提出 了 一 种 方法 ， 即 神经 网 络 集成 (Neural Net- 
work Ensemble) 方法 。 为 上 述 问题 的 解决 提供 了 一 个 简易 可 行 的 方案 。 他 们 证 明 ， 可 以 简 
单 地 通过 训练 多 个 神经 网 络 并 将 其 结果 进行 合成 ， 来 显著 地 提高 神经 网 络 系统 的 泛 化 能 
由 于 该 方法 易于 使 用 且 效 果 明 显 ， 即 使 是 缺乏 神经 计算 经 验 的 普通 工程 技术 人 员 ， 也 可 以 从 
中 受益 ， 因 此 它 被 视 为 一 种 非常 有 效 的 工程 化 神经 计算 方法 。 对 神经 网 络 集成 的 研究 ， 不 仪 
会 促进 神经 计算 乃至 所 有 统计 学 习 方 法 的 理论 研究 ， 还 会 极 大 地 促进 神经 计算 技术 进入 工程 
应 用 的 进程 。 目 前 ， 尤 其 是 最 近 两 三 年 中 ， 国 际 上 很 多 神经 计算 、 统 计 学 的 研究 者 都 投入 到 
神经 网 络 集成 的 研究 中 ， 使 得 该 领域 成 为 了 一 个 相当 活跃 的 研究 热点 。 

Kearns 和 Valiant 指出 ， 在 PAC (概率 地 ， 近 似 地 ， 正 确 地 ) 学 习 模 型 中 ， 若 存在 一 个 
多 项 式 学 习 算 法 来 识别 一 组 概念 ， 并 且 识 别 正确 率 很 高 ， 那 么 这 组 概念 是 强 可 学 习 的 ; 而 如 
果 学 习 算 法 识别 一 组 概念 的 正确 率 仅 比 随机 猜测 略 好 ， 那 么 这 组 概念 是 弱 可 学 习 的 。Kearns 
和 Valiant 提出 了 弱 学 习 算 法 与 强 学 习 算 法 的 等 价 性 问题 ， 即 是 否 可 以 将 弱 学 习 算 法 提升 成 
强 学 习 算 法 。 如 果 两 者 等 价 ， 那 么 在 学 习 概 念 时 ， 只 要 找到 一 个 比 随机 猜测 略 好 的 弱 学 习 算 
法 ,就 可 以 将 其 提升 为 强 学 习 算 法 ， 而 不 必 直 接 去 找 通 常情 况 下 很 难 获得 的 强 学 习 算 法 。 

上 述 等 价 性 问题 可 视 为 神经 网 络 集成 思想 的 出 发 点 。1990 年 ，Schapire 通过 一 个 构造 性 
方法 对 该 问题 作出 了 肯定 的 证 明 ， 其 构造 过 程 称 为 Boosting。 虽 然 Boosting 算法 并 非 专 为 神 
经 网 络 设计 ， 但 它 却 与 神经 网 络 集成 有 着 难以 分 割 的 血缘 关系 。 因 此 本 节 也 将 对 Boosting 及 
相关 技术 进行 介绍 。 

1996 年 ，Sollich 和 Krogh 为 神经 网 络 集成 下 了 一 个 定义 ， 即 “神经 网 络 集成 是 用 有 限 
个 神经 网 络 对 同一 个 问题 进行 学 习 ， 集 成 在 某 输入 示例 下 的 输出 由 构成 集成 的 各 神经 网 络 在 


























































































































161 








该 示例 下 的 输出 共同 决定 ”。 目 前 这 个 定义 已 被 广泛 接受 。 但 是 也 有 一 些 研究 者 认为 ， 神 经 
网 络 集成 指 的 是 多 个 独立 训练 的 神经 网 络 进行 学 习 并 共同 决定 最 终 输 出 结果 ， 并 不 要 求 集成 
中 的 网 络 对 同一 个 〈 子 ) 问题 进行 学 习 。 符 合 后 一 定义 的 研究 至 少 可 以 上 淹 到 1972 年 诺 贝 
尔 物 理 奖 获得 者 Cooper 及 其 同事 和 学 生 于 20 世纪 80 年 代 中 后 期 在 Nestor 系统 中 的 工作 ,但 
是 目前 一 般 认 为 神经 网 络 集成 的 研究 始 于 Hansen 和 Salamon 在 1990 年 的 工作 。 由 于 认识 到 
神经 网 络 集成 所 蕴含 的 巨大 潜力 和 应 用 前 景 ， 在 Hansen 和 Salamon 之 后 ， 很 多 研究 者 都 进 
行 了 这 方面 的 研究 。 但 当时 的 研究 工作 主要 集中 在 如 何 将 神经 网 络 集成 技术 用 于 具体 的 应 用 
领域 。 从 20 世纪 90 年 代 中 期 开始 ， 有 关 神 经 网 络 集成 的 理论 研究 受到 了 极 大 的 重视 ， 大 量 
研究 者 涌 入 该 领域 ， 理 论 和 应 用 成 果 不 断 涌现 ， 使 得 神经 网 络 集成 成 为 目前 国际 机 融 学 习 和 
神经 计算 界 的 一 个 相当 活路 的 研究 热点 。 

在 神经 网 络 集成 的 研究 中 ， 始 终 存在 着 两 方面 的 内 容 : 一 方面 ， 研 究 者 们 试图 设计 出 更 
有 效 的 神经 网 络 集成 实现 方法 ， 以 直接 用 于 解决 问题 ; 男 一 方面 ， 人 研究 者 们 试图 对 神经 网 络 
集成 进行 理论 分 析 ， 以 探 明 这 种 方法 为 何 有 效 ， 在 何 种 情况 下 有 效 ， 从 而 为 实现 方法 的 设计 
提供 指导 。 此 外 ， 还 有 很 多 研究 者 将 神经 网 络 集成 应 用 到 实际 问题 中 ， 取 得 了 很 好 的 效 

2. 神经 网 络 集成 的 实现 方法 

对 神经 网 络 集成 实现 方法 的 研究 主要 集中 在 两 个 方面 ， 即 怎样 将 多 个 神经 网 络 的 输出 进 
行 结合 以 及 如 何 生成 集成 中 的 个 体 网 络 。 

(1) 结论 生成 方法 “” 当 神经 网 络 集成 用 于 分 类 器 时 ， 集 成 的 输出 通常 由 个 体 网 络 的 输 
出 投票 产生 。 通常 采 用 绝对 多 数 投票 法 〈 某 分 类 成 为 最 终结 果 当 且 仅 当 有 超过 半数 的 神经 网 
络 输出 结果 为 该 分 类 ) 或 相对 多 数 投票 法 〈 某 分 类 成 为 最 终结 果 当 且 仅 当 输 出 结果 为 该 分 
类 的 神经 网 络 的 数目 最 多 ) 。 理 论 分 析 和 大 量 试验 表明 ， 后 者 优 于 前 者 。 因 此 ， 在 对 分 类 器 
进行 集成 时 ， 目 前 大 多 采用 相对 多 数 投票 法 。 

当 神 经 网 络 集成 用 于 回归 估计 时 ， 集 成 的 输出 通常 由 各 网 络 的 输出 通过 简单 平均 或 加 权 
平均 产生 。Perrone 等 人 认为 ， 采 用 加 权 平 均 可 以 得 到 比 简单 平均 更 好 的 泛 化 能 力 。 但 是 也 
有 一 些 研究 者 认为 ， 对 权 值 进行 优化 将 会 导致 过 配 (Over Fitting) ， 从 而 使 得 集成 的 泛 化 能 
力 降低 ， 因 此 他 们 建议 使 用 简单 平均 。 

此 外 ， 还 存在 多 种 结合 方式 。 例 如 ， 有 的 研究 者 利用 神经 网 络 这 样 的 学 习 系统 ， 通 过 学 
习 来 对 多 个 预测 进行 结合 ; 有 的 研究 者 通过 对 一 组 子 网 进行 优化 ， 使 各 子 网 都 可 以 较 好 地 处 
理 一 个 输入 子 空 间 ， 从 而 一 步 步 地 进行 结合 ; 有 的 研究 者 不 使 用 线性 结合 方法 ， 而 是 使 用 一 
些 随 个 体 网 络 输出 的 确定 程度 而 变化 的 动态 权 值 来 产生 最 终 的 分 类 ; 有 的 研究 者 以 最 小 化 分 
类 误差 为 标准 选择 出 相对 于 每 一 个 输出 分 类 的 最 佳 网 络 ， 然 后 估计 出 最 优 线 性 权 值 ， 以 将 个 
体 网 络 集成 起 来 形成 理想 分 类 器 。 

(2) 个 体 生成 方法 ”在 生成 集成 中 个 体 网 络 方面 , 最 重要 的 技术 是 Boosting Fil Bagging, 
Boosting 是 一 大 类 算法 的 总 称 ， 最 早 由 Schapire 提出 ，Freund 对 其 进行 了 改进 。 通 过 这 种 方 
法 ， 可 以 产生 一 系列 神经 网 络 ， 各 神经 网 络 的 训练 集 决定 于 在 其 之 前 产生 的 神经 网 络 的 表 
H, 被 已 有 神经 网 络 错误 判断 的 示例 将 以 较 大 的 概率 出 现在 新 神经 网 络 的 训练 集中 。 这 样 ， 
新 神经 网 络 将 能 够 很 好 地 处 理 对 已 有 神经 网 络 来 说 很 困难 的 示例 。 男 一 方面 ， 虽然 Boosting 
方法 能 够 增强 神经 网 络 集成 的 泛 化 能 力 ， 但 是 同时 也 有 可 能 使 集成 过 分 偏向 于 茶几 个 特别 困 
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难 的 示例 。 因 此 ， 该 方法 不 太 稳 定 ， 有 时 能 起 到 很 好 的 作用 ， 有 时 却 没 有 效果 。 值 得 注意 的 
是 ，Schapire 和 Freund 的 算法 在 解决 实际 问题 时 有 一 个 缺陷 ， 即 它们 都 要 求 事先 知道 弱 学 习 
算法 学 习 正 确 率 的 下 限 ， 这 在 实际 问题 中 很 难 做 到 。1995 年 ，Freund 和 Schapire 提出 了 Ad- 
aBoost 算法 ,该 算法 的 效率 与 Freund 算法 很 接近 ， 却 可 以 非常 容易 地 应 用 到 实际 问题 中 ， 
因此 该 算法 已 成 为 目前 最 流行 的 Boosting 算法 。 

Boosting 方法 有 两 种 不 同 的 使 用 方式 ， 即 使 用 带 权 值 的 示例 和 按 概率 重 取 示例 。Quinlan 
通过 实验 发 现 , 前 者 效果 优 于 后 者 。1996 年 ，Breiman 提出 了 Arcing (Adaptive Resample and 
Combine) 的 概念 ， 认 为 Boosting 是 Arcing 算法 族 的 一 个 特例 。 在 此 基础 上 ， 他 设计 出 
Arc2 x4 算 法 , 该 算法 在 产生 新 神经 网 络 时 ， 示 例 的 权 值 的 变化 与 已 有 的 所 有 网 络 都 有 关 。 
有 趣 的 是 ，Bauer 和 Kohavi 通过 实验 发 现 ， 与 AdaBoost 相反 , 按 概 率 重 取 示 例 的 Arc2 x4 优 
于 使 用 带 权 值 示例 的 Arc2 x 4 算法 。 另 外 , 在 使 用 Boosting 类 算法 时 ， 由 于 被 已 有 网 络 正确 
判别 的 示例 的 权 值 会 不 断 减 小 ， 在 Boosting 轮 数 较 多 ， 即 产生 了 较 多 的 个 体 神 经 网 络 时 , 计 
BULA MAES ALE Pi. Bauer 和 Kohavi 为 此 设计 了 一 个 与 AdaBoost 中 的 权 值 更 新 公式 等 价 
的 公式 ， 可 以 较 好 地 缓解 该 问题 。 

Bagging 的 基础 是 可 重复 取样 (Bootstrap Sampling) 。 在 该 方法 中 ， 各 神经 网 络 的 训练 集 
由 从 原始 训练 集中 随机 选取 若干 示例 组 成 ， 训 练 集 的 规模 通常 与 原始 训练 集 相 当 ， 训 练 例 允 
许 重复 选取 。 这 样 ， 原 始 训练 集中 某 些 示例 可 能 在 新 的 训练 集中 出 现 多 次 ， 而 另外 一 些 示例 
则 可 能 一 次 也 不 出 现 。 

Bagging 方法 通过 重新 选取 训练 集 ， 增 加 了 神经 网 络 集成 的 差异 度 ， 从 而 提高 了 泛 化 能 
Fj. Breiman 指出 ， 稳 定性 是 Bagging 能 否 发 挥 作 用 的 关键 因素 ，Bagging 能 提高 不 稳定 学 习 
算法 的 预测 精度 ， 而 对 稳定 的 学 习 算 法 效果 不 明显 ， 有 时 甚至 使 预测 精度 降低 。 学 习 算 法 的 
稳定 性 是 指 如 果 训 练 集 有 较 小 的 变化 ， 学 习 结果 不 会 发 生 较 大 的 变化 ， 例 如 ，k 最 近邻 方 
法 、Naive Bayes 方法 等 是 稳定 的 ， 而 决策 树 、 神 经 网 络 等 方法 是 不 稳定 的 。 目 前 Bagging 也 
有 很 多 种 变 体 ， 例 如 在 扰动 训练 集 时 不 进行 重 取样 ， 而 是 对 各 示例 的 权 值 加 入 零 均 值 高 斯 品 
HJ Wagging (Weight Aggregation) ) o 

Bagging 类 算法 与 Boosting 类 算法 的 主要 区 别 在 于 : Bagging 的 训练 集 的 选择 是 随机 的 ， 
各 轮训 练 集 之 间 相 互 独立 ， 而 Boosting 的 训练 集 的 选择 不 是 独立 的 ， 各 轮训 练 集 的 选择 与 前 
面 各 轮 的 学 习 结果 有 关 ; Bagging 的 各 个 预测 函数 没有 权重 ， 而 Boosting 是 有 权重 的 ; Bag- 
ging 的 各 个 预测 函数 可 以 并 行 生成 , 而 Boosting 的 各 个 预测 函数 只 能 顺序 生成 。 对 于 像 神经 
网 络 这 样 极为 耗 时 的 学 习 方 法 ，Bagging 可 通过 并 行 训练 节省 大 量 时间 开 销 。 另 外 ， 一 些 研 
究 者 发 现 ， 一般 情况 下 ，Bagging 方法 总 是 可 以 改善 学 习 系 统 的 性 能 ;而 Boosting 方法 在 有 
效 时 效果 比 Bagging 还 好 ， 但 在 无 效 时 却 可 能 使 学 习 系 统 的 性 能 恶化 。 值 得 注意 的 是 ，Boos- 
ting 和 Bagging 的 轮 数 并 非 越 多 越 好 ， 实 验 表 明 ， 学 习 系统 性 能 的 改善 主要 发 生 在 最 初 的 知 
干 轮 中 。 

此 外 ， 还 存在 多 种 个 体 生成 方法 。 例 如 ， 有 些 研 究 者 使 用 不 同 的 目标 函数 、 隐 层 神经 元 
数 、 权 值 空间 初始 点 等 来 训练 不 同 的 网 络 ， 从 而 获得 神经 网 络 集成 中 的 个 体 ; 有 的 研究 者 使 
用 交叉 验证 技术 来 产生 神经 网 络 集成 中 的 个 体 ; 有 的 研究 者 利用 遗传 算法 进化 出 的 神经 网 络 
种 群 作为 集成 中 的 个 体 。 
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7.5.3 小 结 


人 工 神 经 网 络 是 由 大 量 简单 的 基本 单元 一 一 神经 元 (Neuron) 相互 连接 而 成 的 非 线性 
动态 系统 ， 虽 然 每 个 神经 元 结构 和 功能 比较 简单 ， 而 由 其 组 成 的 系统 却 可 以 非常 复杂 ， 它 具 
备 一 般 非 线性 动力 学 系统 的 全 部 特点 ， 如 不 可 预测 性 、 不 可 道 性 、 多 吸引 因子 等 。 这 样 一 个 
复杂 的 非 线 性 动力 学 系统 具有 人 脑 的 某 些 特性 ， 在 自学 习 、 自 组 织 、 联 想 及 容错 方面 具有 较 
强 的 能 力 ， 能 用 于 联想 、 识 别 和 决策 。 

一 个 典型 的 神经 网 络 系统 应 该 包括 三 部 分 : 输入 层 、 隐 层 和 输出 层 ， 它 们 之 间 通 过 权 值 
相 联系 ， 构 成 了 一 个 类 似 于 人 类 大 脑 的 非 线 性 系统 。 神 经 网 络 模型 有 几 十 种 ， 其 中 误差 BP 
( 反 向 传播 算 ) 法 网 络 模型 是 模式 识别 应 用 最 广泛 的 网 络 之 一 。 它 利用 给 定 的 样本 ， 在 学 习 
过 程 中 不 断 修正 内 部 连接 权 值 和 阔 值 ， 使 实际 输出 与 期 望 输出 在 一 定 误差 范围 内 相等 。 

神经 网 络 在 人 脸 识别 中 的 应 用 有 很 长 的 历史 ， 它 有 其 特殊 的 适合 于 人 脸 识别 的 优势 ， 它 
不 像 其 他 方法 那样 要 用 一 套 由 人 确定 的 规则 ， 同 时 避免 了 复杂 的 特征 提取 工作 ， 它 能 根据 有 
代表 性 的 样本 自我 学 习 ， 具 有 重 棒 性 和 自 适 应 性 。 此 外 ， 神 经 网 络 以 并 行 方式 处 理 信 息 ， 如 
果 能 用 硬件 实现 ， 就 能 显著 提高 速度 。 

近年 来 ， 用 于 表情 识别 的 人 工 神经 网 络 分 类 器 主要 有 : SRR ae. BP 网 络 、 径 向 基 
函数 (RBF) 网 络 。 参 考 文献 146 ] 中 ， 将 原始 图 像 经 过 Gabor 滤波 和 PCA 降 维 ， 转 化 为 50 
维 的 特征 向 量 ， 作 为 单 层 神经 网 络 分 类 器 的 输入 ， 利 用 delta 规则 训练 ， 将 表情 分 成 六 种 。 
参考 文献 147 ] 分 别 采 用 RBF 网 络 和 多 层 感知 器 两 种 方法 进行 分 类 。 在 JAFFE 表情 数据 库 上 
进行 测试 ， 准 确 率 分 别 达到 了 65% 和 73% 。 参 考 文献 [48 ] 由 Hebbian 规则 训练 的 BP 网 络 分 
类 如 是 在 系统 中 使 用 专门 的 模块 来 完成 的 ， 这 个 神经 网 络 结果 包含 4 层 神经 元 ， 可 将 数据 分 
为 不 同 的 表情 类 别 。 文 中 的 训练 和 测试 图 像 来 源 于 Yale 人 脸 数 据 库 ， 对 于 陌生 样本 的 表情 
识别 率 可 以 达到 84. 5% 。 参 考 文献 [49 ] 比较 了 两 种 训练 RBF 网 络 的 方法 ， 发 现 利 用 监督 聚 
类 来 初始 化 RBF 网 络 比 用 非 监 督 聚 类 来 初始 化 并 通过 梯度 下 降 算 法 进行 改善 的 效果 更 好 ， 
但 是 梯度 下 降 算法 对 监督 聚 类 初始 化 的 RBF 网 络 并 没有 很 好 的 改善 作用 。 

ANN 可 以 作为 单纯 的 分 类 器 〈 不 包含 特征 提取 、 选 择 ) ， 也 可 以 用 作 功 能 完善 的 分 类 
dit. ANN 分 类 器 是 一 种 非 线性 的 分 类 器 ， 它 可 以 提供 我 们 很 难 想象 到 的 复杂 的 类 间 分 界面 ， 
这 也 为 复杂 分 类 问题 的 解决 提供 了 一 种 可 能 的 解决 方式 。 当 然 ， 目 前 在 对 于 人 脸 识别 或 是 人 
脸 表情 识别 的 分 类 问题 上 ，ANN 的 规模 通常 比较 大 ， 需 要 大 量 的 训练 样本 和 训练 时 间 ， 很 
难 满足 实时 处 理 的 要 求 。 如 何 合理 地 构造 ANN， 并 且 准 确 佑 计 初 值 的 范围 ， 使 神经 网 络 的 
训练 不 会 陷入 局 部 最 小 点 等 ， 仍 然 是 学 者 们 努力 探讨 的 问题 。 
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7.6 ”模糊 模式 识别 


7.6.1 概述 


模糊 一 词 来 自 英 文 Fuzzy， 意 思 是 “模糊 的 "、” (形状 或 状态 ) 不 清楚 ”等 ， 总之, € 
意味 着 界限 不 明确 。 
模糊 数学 不 是 “模糊 的 ”或 “含糊 的 ”数学 ， 而 是 涉足 模糊 性 现象 领域 的 数学 ， 是 运 
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用 数学 方法 研究 和 处 理 带 有 模糊 性 现象 的 一 门 新 兴学 科 。 模 糊 数学 就 是 把 客观 世界 中 的 模糊 
现象 作为 研究 对 象 ， 从 中 找 出 规律 ， 然 后 用 精确 的 数学 方法 来 处 理 的 一 门 新 的 数学 分 支 。 

模糊 性 是 指 事物 的 亦 此 亦 彼 性 ， 反 映 在 概念 形成 过 程 中 外 延 的 不 分 明 性 。 例 如 “漂亮 ” 
一 词 在 人 群 中 难以 找到 确切 的 外 延 ， 很 难 将 一 群 人 硬性 地 划分 为 漂亮 的 与 不 漂亮 的 两 部 分 ， 
这 就 叫做 模糊 性 现象 。 模 糊 性 现象 的 本 质 在 人 们 头脑 中 的 反映 ， 就 形成 了 模糊 概念 。 上 面 刚 
提 到 的 “漂亮 ”就 是 一 个 模糊 概念 。 在 表述 模糊 概念 时 ， 经 常 使 用 模糊 性 的 语言 ， 对 很 多 
问题 也 难以 给 出 确切 的 统一 标准 ， 但 是 这 并 不 妨碍 人 们 的 理解 。 这 说 明 人 们 已 经 习惯 用 一 些 
模糊 性 的 语言 来 表述 事物 和 表达 个 人 情感 ， 用 模糊 的 方法 来 思考 和 解决 问题 。 

1965 年 ， 美 国 自动 控制 专家 上 A. Zadeh 教授 著名 的 论文 《模糊 集合 》 (Fuzzy Sets, In- 
formation and Control) 的 发 表 ， 标 志 着 模糊 数学 的 诞生 。 

精确 数学 的 局 限 性 在 于 它 有 时 不 能 准确 地 描述 客观 现实 。 比 如 在 看 电视 时 ， 要 把 图 像 调 
得 更 清晰 一 些 ， 这 个 小 孩子 都 能 做 的 事情 ， 对 于 计算 机 来 说 ， 却 成 了 一 大 难题 。 其 原因 就 在 
于 “更 清晰 一 些 ” 是 一 个 模糊 概念 ， 它 难以 用 精确 的 数学 语言 来 描述 ， 所 以 难以 由 计算 机 
控制 。 另 外 ， 精 确 数学 也 很 难 在 生物 学 、 心 理学 和 社会 科学 等 领域 中 发 挥 更 大 的 作用 ， 不 是 
因为 这 些 学 科 太 简单 ， 不 必 应 用 数学 。 而 是 因为 这 些 学 科 的 规律 太 复杂 ， 精 确 数学 无 法 准确 
地 反映 它们 的 真实 面貌 。 
集合 论 是 数学 的 基础 ， 它 是 以 形式 逻辑 的 统一 律 、 矛 盾 律 和 排 中 律 为 基础 的 ， 它 要 求 客 
观 事物 绝对 的 “ 非 此 即 彼 ”。 这 样 就 把 客观 事物 简单 化 、 把 思维 过 程 绝 对 化 了 ， 就 难以 完全 
反映 客观 事物 的 本 来 面目 。 但 是 如 果 将 集合 论 中 的 普通 子 集 的 特征 函数 扩展 为 模糊 子 集 的 隶 
属 函 数 ， 将 二 值 逻 辑 ( 真 为 “1”, 假 为 “0”， 也 即 非 此 即 彼 ) 发 展 为 多 值 逻辑 ， 即 把 10, 
1| 扩充 为 [0, 1] KE, 用 [0, 1) 内 的 数 来 描述 事物 的 模糊 性 ， 这 样 就 反映 了 事物 本 里 
存在 的 或 多 或 少 的 模糊 性 。 

模糊 数学 诞生 至 今 ， 它 的 应 用 已 经 涉及 自然 学 科 、 社 会 学 科 的 各 个 领域 ， 在 冶金 、 气 象 
学 、 生 物 学 、 心 理学 、 电 子 学 、 控 制 论 、 物 理 和 信息 等 领域 中 ， 模 糊 数学 都 取得 了 显著 效 
果 。 随 着 电子 计算 机 的 发 展 ， 模 糊 数学 的 应 用 越 来 越 广 。 它 可 以 用 来 进行 植物 的 分 类 、 人 类 
体形 分 类 ， 用 以 识别 文字 、 辨 认 卫 星 照 片 、 识 别 癌 细 胞 ， 还 可 用 于 环境 综合 评价 等 。 


7.6.2 模糊 数学 基本 理论 


1. 模糊 子 集 
(1) 模糊 子 集 的 定义 ” 设 给 定论 域 0,U 到 [0，,1j] 闭 区 间 的 任 一 映射 yx 
Kr U— [0,1] 
































































































































(7-182) 


u — uu) 

都 可 确定 U RJ—^4- EUBIT ER, uas PRON FARA PB, s Cu) FON u 对 于 有 的 隶属 度 。 
隶属 度 也 可 记 为 R(u) 。 在 不 混 消 的 情况 下 ， 模 糊 子 集 也 称 为 模糊 集合 。 

上 述 定义 表明 ， 论 域 驴 上 的 模糊 子 集 R 由 隶属 函数 we(z) 来 表征 ，A Cu) 取 值 范围 为 财 
区 间 [0，1] ug Cu) 的 大 小 反映 了 >z 对 于 模糊 子 集 的 从 属 程度 。me (Cu) 的 值 接近 于 1， 表示 
u 从 属于 R 的 程度 很 高 ; ug Cu) 的 值 接近 于 0， 表示 必 从 属于 有 的 程度 很 低 。 可 见 ， 模 糊 子 集 
完全 由 隶属 函数 来 描述 。 

(2) 模糊 集合 的 表达 方式 ” 当 VU 为 有 限 集 


















































up, wy, c, USI, 通常 有 如 下 三 种 模糊 集 
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合 的 表达 方式 : 
1) Zadeh 表示 法 : 








May Qu, ) Mp (Uy) Mp Cu, ) 
+ +: 


R= pud (7-183) 


RP, ua Qu) Zu, 并 不 表示 "分 数 "， 而 是 表示 论 域 中 的 元 素 与 其 隶属 度 melu) ZENA 
应 关系 。“ + "也 不 表示 " 求 和 ”， 而 是 表示 模糊 集合 在 论 域 上 的 整体 。 
2) 序 偶 表 示 法 : 
将 论 域 中 的 元 素 u FESR DE ua Cu; ) 构 成 序 偶 来 表示 及 ， 则 
R= | Lu Mp Cui ) ] [us ug (Uy) ] sU usua Qus) ]! (7-184) 
此 种 方法 隶属 度 为 0 的 项 可 以 不 写 人 。 
3) 向 量 表示 法 : 







































































R= {poy (Uy) speg Cus) ARC | (7-185) 
在 向 量 表示 法 中 ， 不 能 省 略 隶 属 度 为 0 的 项 。 
2. 模糊 关系 
模糊 关系 的 定义 “在 普通 集合 论 中 ， 设 VU、V 是 两 个 论 域 , 称 
UxV = |(x,y)lx e U,y eV} (7-186) 
为 U、V 的 直 积 或 笛 卡 儿 积 。 
从 UV 到 V 的 一 个 关系 定义 为 集合 VU、V 的 直 积 UxV 的 一 个 子 集 RR， 记 作 


R 
U—>V (7-187) 





























推广 到 模糊 子 集 ， 有 : 

【定义 7-3】 HFR U xV 的 一 个 模糊 子 集 R 的 就 是 U 到 VV 的 模糊 关系 。R 的 隶属 函数 
pa Gs VERT U 中 的 元 素 * 与 V 中 的 元 素 y 具 有 关系 R 的 程度 。 

模糊 关系 完全 由 其 隶属 函数 a(x，y) 来 刻画 ， 当 a(x，y) 为 1 或 0 两 个 极端 值 时 ， 模 
糊 关系 即 变 为 经 典 关 系 。 

对 于 有 限 论 域 U = (xy xx) Y = On aon) ,0U 对 V 的 模糊 关系 可 用 矩阵 R = 
(rj) ERR, HP Ty sus Gs. ys PER = (rm )。。 称 为 模糊 矩阵 。 模 糊 关系 的 运算 完 
全 可 以 通过 模糊 矩阵 来 进行 。 

3. 隶属 函数 的 确定 

隶属 函数 是 对 模糊 概念 的 定量 描述 。 隶 属 度 和 隶属 函数 是 模糊 数学 中 的 两 个 重要 概念 ， 
对 模糊 数学 的 应 用 ， 几 乎 都 与 这 两 个 概念 联系 在 一 起 。 

例如 我 们 说 “小 王 性 格 稳重 "， 性 格 稳重 就 是 一 个 模糊 概念 。 人 们 在 头脑 中 区 别 这 个 概 
念 时 ， 并 不 要 作 绝对 的 肯定 或 者 否定 ， 所 要 求 的 只 是 小 王 对 “性 格 稳重 "这 个 概念 符合 到 什 
么 样 的 程度 ， 这 个 程度 可 用 [0，1] 上 的 一 个 实数 去 度量 ， 这 个 实数 便 是 “隶属 度 "。 如 果 它 
随 着 变量 * 的 改变 而 改变 ， 那 么 这 个 从 变量 到 隶属 度 的 映射 关系 就 是 “隶属 函数 "， 它 可 以 
用 客观 的 方法 确定 ， 也 可 以 凭 经 验 判断 得 出 。 例 如 ， 按 某 种 原则 确定 小 王 的 性 格 稳重 程度 为 
0.8， 即 小 王 ( 记 作 a) 对 于 “性 格 稳重 ”的 隶属 函数 A(x) ， 当 x=a 时 的 值 为 0.8， 记 作 4(a) 
=0.8。 

(1) 确定 隶属 函数 的 原则 “隶属 函数 的 确定 过 程 本 质 上 说 应 该 是 客观 的 ， 但 每 个 人 对 
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于 同一 个 模糊 概念 的 认识 理解 又 有 差异 ， 因 此 隶属 函数 的 确定 又 带 有 主观 性 。 它 的 建立 应 遵 
循 下 述 原则 : 

。 隶属 函数 的 建立 虽 有 主观 性 、 但 不 能 有 随意 性 。 

。 建立 隶属 函数 之 前 ， 须 对 于 待 确定 的 模糊 概念 相关 的 客观 因素 进行 充分 的 考察 ， 以 
取得 可 靠 的 数据 。 

e 参与 建立 隶属 函数 的 人 员 ， 不 仅 要 对 待 确定 的 模糊 概念 有 主观 上 的 充分 认识 ， 同 对 
也 必须 有 将 其 认识 转化 为 数学 表示 的 能 力 。 

e 可 根据 具体 问题 的 特点 ， 同 时 试用 几 种 建立 隶属 函数 的 方法 分 别 建 立 相 应 的 隶属 函 
数 ， 然 后 再 从 中 选取 一 种 更 为 合适 的 隶属 函数 。 

。 隶属 函数 建立 后 ， 使 用 过 程 中 根据 具体 情况 再 做 菜 些 调整 。 

e 对 于 清晰 的 情况 ， 相 应 的 隶属 度 值 只 能 取 0 或 1， 绝 不 能 将 清晰 概念 模糊 化 。 

(2) 隶属 函数 的 确定 ”确定 隶属 函数 的 方法 有 很 多 种 ， 目 前 常用 的 确定 方法 有 模糊 统 
计 法 、 专 家 经 验 法 (又 叫 Delphi 法 ) 、 对 比 法 和 因素 加 权 统 计 法 等 。 在 此 就 不 一 一 详细 介绍 
了 ， 具 体内 容 请 参考 模糊 数学 方面 的 书籍 。 根 据 处 理 对 象 的 不 同 ， 要 选取 不 同 的 方法 。 选 取 
方法 有 以 下 几 个 原则 : 

1) 大 模糊 集 反 映 的 是 社会 的 一 般 意识 ， 它 是 大 量 的 可 重复 表达 的 个 别 意 识 的 平均 绪 
果 ， 例 如 青年 人 、 经 济 增长 快 、 生 长 正常 等 ， 则 此 时 采用 模糊 统计 法 来 求 隶属 函数 较为 理 
A o 

2) 如 果 模 糊 集 反 映 的 是 某 个 时 间 段 内 的 个 别 意识 、 经 验 和 判断 ， 例 如 ， 某 专家 对 某 个 
项 目 可 行 性 的 评价 ， 那 么 对 这 类 问题 可 以 采用 Delphi 法 。 

3) 知 模糊 集 反 映 的 模糊 概念 已 有 相应 成 熟 的 指标 ， 这 种 指标 经 过 长 期 实践 检验 已 成 为 
公认 的 对 事物 的 真实 的 又 是 本 质 的 描述 ， 则 可 直接 采用 这 种 指标 ,或 者 通过 某 种 方式 将 这 种 
指标 转化 为 隶属 函数 。 

4) 对 某 些 模糊 概念 ， 虽 然 直接 给 出 其 隶属 函数 比较 困难 ， 但 却 可 以 比较 两 个 元 素 相应 
的 隶属 度 ， 此 时 可 用 相对 选择 法 求 得 隶属 函数 。 

5) 奉 一 个 模糊 概念 是 由 寿 干 个 模糊 因素 复合 而 成 的 ， 则 可 先 求 各 因素 模糊 集 的 隶属 函 
数 ， 再 综合 出 模糊 概念 的 隶属 函数 。 

需要 特别 指出 的 是 ， 隶 属 函 数 应 通过 实践 检验 ， 利 用 信息 反馈 ， 不 断 进 行 调整 ， 使 隶属 
函数 的 形成 成 为 一 种 学 习 的 过 程 ， 以 求 达 到 相对 稳定 的 状态 。 


7.6.3 ”模糊 模式 识别 


与 电脑 相 比 ， 人 脑 在 速度 和 记忆 能 力 方面 远 远 不 如 电脑 ， 但 是 对 客观 物体 分 类 与 识别 的 
能 力 上 却 大 大 强 于 电脑 。 模 糊 数学 的 创始 人 工 A. Zadeh 在 1965 年 提出 了 模糊 集合 论 ， 使 人 
们 认识 到 ， 人 脑 在 对 问题 进行 判断 、 推 理 和 决策 时 ， 处 理 的 是 模糊 信息 。 因 而 ， 模 糊 集合 论 
很 自然 地 被 引入 了 模式 识别 领域 。 客 观 世 界 中 ， 很 多 概念 没有 明确 的 外 延 ， 对 于 这 种 概念 所 
对 应 的 集合 ， 究 竟 变 量 论 域 中 的 哪些 概念 属于 该 集合 ， 哪 些 概念 不 属于 该 集合 ， 没 有 绝对 的 
划分 ， 而 只 有 相对 的 归属 。 不 同 的 类 型 之 间 、 不 同 的 描述 之 间 ， 存 在 一 种 处 于 中 间 状 态 的 过 
渡 区 域 ， 因 而 分 类 过 程 就 带 有 了 某 种 模糊 性 。 基 于 模糊 集合 的 模糊 理论 方法 比 基 于 传统 集合 
理论 和 逻辑 方法 要 更 加 接近 人 在 思维 和 推理 上 的 这 种 模糊 性 ， 模 糊 理论 提供 了 一 个 比较 恰当 
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的 框架 来 表示 人 的 不 精确 概念 和 推理 方式 。 当 把 模糊 理论 引用 到 模式 识别 领域 时 ， 判 断 的 标 
准 “ 真 ”或 “ 假 ” 就 变 成 了 相对 的 概念 。 在 这 种 场合 下 的 模式 识别 问题 ， 用 模糊 集合 论 的 
方法 来 进行 研究 与 处 理 ， 具 有 特殊 的 作用 与 意义 。 这 种 模式 识别 中 的 模糊 性 主要 来 自 于 两 个 
方面 : 识别 对 象 本 身 的 模糊 性 或 识别 要 求 〈 识 别 结果 ) 上 的 模糊 性 。 因 而 ， 当 模式 识别 的 
识别 对 象 与 识别 要 求 〈 识 别 结果 ) 有 一 方 是 模糊 时 ， 模 糊 数学 的 发 展 与 应 用 为 此 类 问题 的 
解决 提供 了 有 效 的 方法 。 

在 模式 识别 中 ， 引 入 模糊 数学 方法 ， 用 模糊 技术 来 设计 识别 系统 ， 可 以 更 好 地 模拟 人 的 
思维 过 程 ， 对 带 有 模糊 性 的 客观 事物 进行 识别 和 归 类 。 

所 谓 模式 识别 ， 简 单 来 讲 就 是 把 要 研究 的 对 象 ， 根 据 其 某 些 特 征 ， 通 过 与 已 知 的 模式 比 
较 ， 确 定 它 与 哪个 模式 类 同 的 过 程 。 这 主要 有 两 个 本 质 特 征 : 一 是 有 事先 已 知 的 标准 模型 库 
(包含 知 干 标准 模型 ) ;二 是 有 需要 识别 的 对 象 。 所 谓 模 糊 模 型 识别 ， 是 指 在 模型 识别 过 程 
中 ， 模 型 是 模糊 的 ， 也 就 是 说 ， 标 准 模型 库 中 所 包含 的 模型 是 模糊 的 。 

参考 文献 [1] 中 详细 论述 了 在 模式 识别 的 不 同 阶段 ， 会 出 现 不 同 层次 的 模糊 性 ， 因 此 模 
式 识 别 问 题 本 质 上 是 无 法 用 精确 数学 来 表示 的 。 从 理论 上 来 说 ， 模 糊 集 理论 提供 的 模式 识别 
方法 应 该 比 基 于 经 典 集合 论 和 概率 论 的 传统 模式 识别 方法 能 提供 更 为 自然 的 模式 识别 问题 的 
表达 和 和解 。 

l. 模糊 模式 识别 的 一 般 步 又 

模式 识别 的 问题 ， 在 模糊 数学 形成 之 前 就 已 经 存在 ， 和 常用 的 识别 方法 主要 是 统计 方法 或 
语言 的 方法 。 但 在 多 数 情况 下 ， 标 准 类 型 常 可 用 模糊 集 表示 ， 用 模糊 数学 的 方法 进行 识别 是 
更 为 合理 可 行 的 ， 以 模糊 数学 为 基础 的 模式 识别 方法 称 为 模糊 模式 识别 。 

模糊 模式 识别 主要 包括 如 下 三 个 步骤 : 

(1) 对 识别 对 象 的 特征 指标 进行 提取 ”首先 需要 从 识别 对 象 中 提取 与 识别 有 关 的 特征 ， 
并 度量 这 些 特征 ， 如 有 果 是 多 个 特征 ， 则 设 x ，x,，…，% 分 别 为 每 个 特征 的 度量 值 ， 于 是 每 
个 识别 对 象 x 就 可 以 表示 为 一 个 向 量 xi wa, e G) ， 这 一 步 是 识别 的 关键 ,特征 提取 
不 合理 ， 会 影响 识别 效果 。 涉 及 实际 问题 的 具体 内 容 、 背 景 以 及 识别 者 的 知识 、 技 巧 和 意 
志 ， 是 识别 工作 的 基础 ， 其 将 直接 影响 识别 的 效果 ， 但 很 难 做 出 一 般 性 的 讨论 。 

(2) 建立 标准 类 型 的 隶属 函数 ”标准 类 型 通常 是 论 域 上 LO = fay, x, cn. x, | 的 模糊 
R, HP x 是 识别 对 象 的 第 i 个 特征 ， 标 准 类 型 的 隶属 函数 就 是 0 到 [0, 1] 的 一 个 实 值 
函数 。 确 定 隶 属 函 数 的 过 程 ， 本 质 上 是 客观 的 ， 但 又 容许 有 一 定 的 主观 。 因 为 一 个 模糊 集 一 
般 来 说 都 是 联系 着 一 个 模糊 概念 ， 而 概念 是 人 的 主观 意识 对 客观 事物 认识 过 程 的 产物 。 确 定 
一 个 元 素 对 一 个 模糊 集 的 隶属 度 ， 就 必然 会 体现 出 人 的 主观 意识 对 客观 事物 的 一 种 判定 和 信 
度 。 同 时 概念 又 是 客观 事物 在 人 脑 中 的 反映 ， 要 受到 客观 的 制约 和 限定 ， 在 这 一 点 上 它 是 客 
观 的 。 

(3) 建立 识别 对 象 的 判别 原则 即 确定 出 茶 些 归属 原则 ， 指 出 识别 对 象 应 归属 于 哪 一 
个 标准 类 型 。 模 糊 模 式 识别 的 方法 主要 有 直接 识别 方法 和 间接 识别 方法 两 种 ， 前 者 主要 用 到 
最 大 隶属 度 原 则 ， 后 者 主要 用 到 择 近 原 则 。 

2. 模糊 度 与 贴近 度 (模糊 模式 识别 ) 
虽然 模糊 集 完全 由 其 隶属 函数 来 确定 ， 即 确定 了 隶属 函数 ， 也 就 确定 了 模糊 集 。 但 是 ， 
有 时 还 需要 知道 模糊 集 的 某 方 面 特性 ， 如 模糊 的 程度 、 两 模糊 集 的 接近 程度 等 ， 因 此 需要 引 
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入 一 些 数量 指标 来 描述 这 些 特性 。 

(1) 模糊 度 “模糊 度 是 描述 模糊 集 的 模糊 程度 的 数量 指标 。 

【定义 74】 所 谓 论 域 VU 上 的 一 个 模糊 子 集 8 的 模糊 度 D(R) ,是 指 当 且 仅 当 jpx Gs) WO 
和 1 时, DCR) = 0, 此 时 模糊 度 最 小 ; 当 ya(x) = 0.5 时 , DR = 1, 这 时 模糊 度 最 大 。 

设 任意 x e U, 而 R AIR’ 是 U 的 两 个 模糊 子 集 , AE p(w) > uy (w) > 0.5 Rulu) < 
jug (w) <0.5, 则 有 D(R) < D(R')。 

如 果 一 个 模糊 集合 的 模糊 度 为 0， 则 该 模糊 集合 退化 为 普通 集合 ， 当 隶属 度 为 0.5 时 ， 
是 最 模糊 的 ; 隶属 度 离 0.5 越 接近 ， 就 越 模糊 ， 离 0.5 越 远 ， 则 越 清晰 。 

(2) 贴 近 度 ”贴近 度 是 度量 两 模糊 集 接近 程度 的 数量 指标 。 

为 了 讨论 模糊 集合 的 贴近 度 ， 引 入 内 积 与 外 积 的 概念 。 

【定义 7-5】 设 4、8 是 论 域 VU 上 的 两 个 模糊 子 集 ， 称 

A-B =V (QD An(B)) (7-188) 







































































为 4 与 8 内 积 。 称 
A@B=N (ulA) V u(B)) (7-189) 
为 4 与 8 外 积 。 
内 积 越 大 ， 模 糊 集 越 靠近 ; 外 积 越 大 ， 模 糊 集 越 琉 远 。 将 内 积 和 外 积 结 合 起 来 建立 格 贴 
近 度 ， 则 可 以 刻画 两 个 模糊 积 的 接近 程度 。 格 贴近 度 的 定义 如 下 : 
【定义 7-6】 ic 























(A,B) = [A+B + (1-A@B)] (7-190) 


为 模糊 集 4、8 的 格 贴近 度 。 
3. 模糊 模式 识别 的 基本 原则 
最 大 隶属 原则 与 择 近 原 则 是 模糊 模式 识别 所 依据 的 基本 原则 。 最 大 隶属 原则 直接 基于 隶 
属 函 数 ， 择 近 原 则 基于 贴近 度 概 念 。 
在 对 事物 进行 识别 时 ， 若 标准 类 型 是 一 些 表 示 模 糊 概念 的 模糊 集 ， 由 于 竺 识别 对 象 往往 
不 是 绝对 地 属于 某 类 标准 类 型 ， 所 以 其 隶属 度 不 为 1。 
当 待 识别 对 象 是 论 域 中 的 某 一 元 素 时 ， 或 待 识别 对 象 是 由 一 个 特征 指标 来 描述 时 ， 这 类 
问题 常常 采用 最 大 隶属 原则 的 方法 加 以 识别 。 
(1) 最 大 隶属 原则 I 设 有 模式 4,(i=1，2,…, n) 是 论 域 U 上 的 模糊 集 ， 取 xeU， 
且 存 在 ie 11,2,…, nh, tee 
A,(x) = max{A,(«) ,A,(x),…,A, (x) } (7-191) 
则 认为 * 相对 隶属 于 4， 即 元 素 * 应 归于 模式 4,。 
(2) RAREN AER) ” 设 有 模式 44 =1，2，…, n) 是 论 域 VU 上 的 模糊 集 ， 
取 xeU， 规 定 一 个 阔 值 (水 平 )Ae (0, 1], ic 
a = max|A(x),A,(x),…,A, (x) | (7-192) 
若 w<A， 则 作 ” 拒 识 " 的 判决 ， 应 查找 原因 另 作 分 析 。 知 =A， 则 认为 识别 可 行 ， 按 最 大 隶 
属 原则 工 判决 。 
最 大 隶属 原则 开 可 以 避免 因 隶 属 度 都 很 小 而 由 最 大 隶属 原则 工作 出 侦 离 实际 较 远 的 判 
决 。 
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(3) 择 近 原则 I 设 有 模式 4,(i=1, 2, =, n), BÆR U ERIR, N 为 格 贴近 
BENE. iell,2,--,nlj, W 
N(A,,B) = maxi N(A,,B) ,N(A,,B) ,--: , N(A,,B)]| (7-193) 
则 认为 8 与 4; 最 贴近 , TE B 5A; 归 为 一 类 。 
(4) EWW RARAA(i=1, 2, =, n), BÆR U ERR, N 为 格 贴近 
ERKA NE — T BHBOCKE)A e(0, 1], id 
a = max| N(A, ,B) ,N(A,,B) ,--: ,N(A,,B)] (7-194) 
fia«A, MEGER WAR, MARA ATE. Faza, MAHRI T, BOBO 
则 工 判决 。 
上 面 介绍 的 原则 都 只 适用 于 一 维 模糊 模式 识别 ， 下 面 介绍 适用 于 多 特征 的 模式 识别 原 
则 。 当 竺 识别 对 象 是 由 多 个 特征 指标 来 描述 ( 即 竺 识别 对 象 是 论 域 中 的 多 个 元 素 ) 时 ， 就 需 
要 在 采用 最 大 隶属 原则 的 基础 上 ， 再 用 择 近 原 则 进行 进一步 的 识别 。 待 识别 对 象 的 多 个 特征 
指标 也 称 作 特 征 向 量 。 
(5) 多 特征 模式 识别 的 择 近 原则 设 有 模式 4 = (Ag An, Ai), 其 中 4;(i = 1,2,…， 
m3j = 1,2,:,n) 是 论 域 UU 上 表示 模式 A; 不 同 特性 的 模糊 集 ， 待 识别 对 象 的 特征 向 量 x = 
(xita Xn), AP x e U(i = 1,2,…,n) 。 特 征 向 量 x 对 于 A; 的 隶属 度 定义 为 















































A;(x) = min|A4(x,) , Ag (x,) An (x,)| (7-195) 
ATE] e 11,2,…,m| ， 使 得 
A(x) = max (A, (x) ,A5 (x) ,4 (xz)| (7-196) 








则 认为 x 相对 隶属 于 4， 即 向 量 x 应 归于 模式 4 。 
7.6.4 小 结 


模糊 数学 自 提出 之 后 ， 得 到 了 快速 的 发 展 ， 并 在 模式 识别 、 模 糊 控 制 、 模 糊 诊 断 等 很 多 
领域 获得 了 非常 广泛 的 应 用 。 将 模糊 数学 的 基本 理论 应 用 到 模式 识别 中 ， 即 形成 了 模糊 模式 
识别 。 模 糊 模 式 识别 是 模糊 集合 论 应 用 的 重要 方面 之 一 。 它 的 主要 任务 是 让 机 器 能 模拟 人 的 
思维 方法 ， 对 带 有 模糊 性 的 客观 事物 进行 识别 和 归 类 ， 使 计算 机 系统 具有 模拟 人 类 通过 感官 
接受 外 界 信息 ， 识 别 和 理解 周围 环境 的 能 力 。 

模糊 模式 识别 可 以 直接 用 于 人 脸 识 别 或 表情 识别 ， 也 可 以 与 其 他 方法 相 结合 来 加 以 应 
用 ， 如 模糊 神经 网 络 、 模 糊 支 持 向 量 机 等 。 
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第 8 全 人 脸 合 成 的 方法 与 技术 


8.1 概述 


近年 来 ， 随 着 网 络 和 多 媒体 通信 日 益 广泛 的 应 用 ， 人 们 之 间 的 交流 方式 也 在 发 生 改 变 ， 
从 面对面 地 交谈 、 打 电话 ， 到 电子 邮件 、 视 频 聊 天 、 视 频 会 议 ， 人 们 越 来 越 趋向 于 在 虚拟 的 
网 络 世 界 中 进行 形式 丰富 的 交流 与 互动 。 人 脸 是 人 类 交流 的 重要 渠道 ， 是 人 类 喜 、 怒 、 户 、 
乐 等 复杂 表情 和 语言 的 载体 。 随 着 计算 机 图 形 学 在 建 模 、 泻 染 和 实时 动画 等 方面 的 发 展 ， 人 
脸 建 模 和 动画 在 电影 虚拟 角色 、 远 程 会 议 、 犯 罪 学 、 医 学 、 信 息 帮 助 、 多 媒体 通信 、 人 机 交 
互 、 娱 乐 、 虚 拟 现 实 、 人 脸 识别 和 表情 理解 等 方面 取得 了 广泛 的 应 用 。 传 统 的 人 脸 模型 多 是 
通过 昂贵 的 CT、 核磁 共振 、 三 维 激光 扫描 等 设备 建立 起 来 的 ， 模 型 复杂 ， 精 确 度 高 ， 而 对 
于 人 们 在 虚拟 世界 中 进行 交流 这 个 应 用 来 说 ， 更 希望 以 较 小 的 代价 来 建立 相对 而 言 不 是 那么 
精细 的 人 脸 模 型 。 

目前 三 维 人 脸 合 成 技术 尚 有 许多 问题 需要 探索 和 解决 ， 这 些 问题 集中 在 以 下 几 个 方面 : 

1) 利用 善 通 摄像 设备 结合 计算 机 视觉 技术 进行 三 维 数据 获取 。 目 前， 越 来 越 多 的 计算 
机 上 配 有 摄像 头 ， 如 何 通过 普通 摄像 设备 进行 数据 的 获取 是 一 个 热点 问题 。 

2) 建立 更 准确 的 肌肉 模型 和 皮肤 模型 ， 描 述 逼 真 复杂 的 面部 表情 和 皮肤 特性 。 

3) 特定 人 脸 模 型 的 建立 。 虽 然 近年 来 出 现 了 一 些 较 好 的 算法 ， 但 是 距离 实用 化 、 自 动 
化 还 有 一 段 距离 ， 这 方面 依然 是 今后 研究 的 难点 。 

4) 三 维 人 脸 模 型 的 应 用 ， 如 身份 识别 、 影 视 制 作 、 远 程 教育 、 网 络 游戏 等 。 

人 脸 建 模 与 动画 是 计算 机 图 形 学 中 研究 的 热点 与 难点 。 因 为 人 脸 运 动 是 一 个 和 运动 机 理 非 
常 复杂 的 过 程 ， 人 研究 具有 真实 感 的 人 脸 动 画 很 具有 挑战 性 ， 主 要 研究 内 容 包 括 : 

1. 三 维 表 示 技 术 

目前 比较 流行 的 人 脸 表 示 有 多 边 形 表 示 和 NURBS (3EHJAJ4G 2 BRA) 曲面 表示 。 多 
边 形 表示 是 三 维 物体 的 传统 表示 方法 ， 相 对 比较 简单 ， 可 扩展 性 强 ， 而 且 泻 染 时 间 比 较 短 ， 
这 对 实现 实时 动画 比较 关键 ， 其 缺点 是 要 达到 与 NURBS 曲面 相同 的 光滑 程度 ， 需 要 比 
NURBS 曲面 多 好 几 倍 的 控制 点 。 但 是 可 以 使 用 Phong (平滑 ) Gouraud Shading (高 洛 德 上 
色 ) ,Subdivision ( 细 分 ) 等 技术 来 提高 光滑 程度 。NURBS 表示 方法 是 用 一 个 整个 的 曲面 来 
表示 三 维 实体 ， 它 通过 一 个 控制 点 矩阵 来 控制 曲面 上 各 点 的 位 置 和 法 向 量 方 向 ,使 用 有 理 B 
样 条 曲面 来 拟 合 控制 点 多 边 形 ， 因 为 有 理 B 样 条 函数 是 高 次 函数 ， 具 有 多 阶 导数 ， 所 以 拟 
合 出 来 的 B 样 条 曲面 是 光滑 的 曲面 。NURBS 曲面 最 大 的 优势 在 于 光滑 程度 比较 好 ， 其 最 大 
的 缺点 在 于 难以 实现 控制 点 的 合理 分 布 。 

2. 三 维 建 模 技术 

三 维 建 模 研 究 的 是 如 何 从 照片 、 视 频 序列 、 激 光 扫 描 仪 数据 等 这 些 二 维 数据 重建 三 维 实 
体 ， 它 可 以 说 是 人 脸 建 模 核心 的 技术 。 目 前 比较 流行 的 建 模 方法 有 弹性 网 格 法 、 自 由 变形 
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法 、 插 值 法 和 拟 合法 等 。 

3. 纹理 映射 技术 

为 了 提高 模型 的 逼真 程度 ， 就 需要 给 模型 各 个 部 分 赋予 颜色 、 纹 理 、 反 光 程 度 等 参数 。 
而 手工 定义 这 样 的 参数 就 使 得 模型 显得 不 逼真 ， 只 能 产生 一 种 卡通 效果 。 因 此 需要 用 到 贴图 
技术 ， 贴 图 技术 可 以 说 是 图 形 学 中 重要 的 技术 之 一 。 在 人 脸 建 模 与 动画 中 ， 就 是 把 人 脸 的 照 
片 贴 到 三 维 人 脸 模 型 上 ， 使 得 人 脸 模 型 更 加 人 性 化 ， 从 而 获得 通 真 纹理 。 

4. 物理 学 和 生物 力学 等 技术 

人 脸 建 模 与 动画 涉及 的 物理 学 知识 主要 是 弹性 力学 知识 。 人 脸面 部 的 皮肤 是 有 弹性 的 。 
当 某 一 部 位 发 生 位 移 时 ， 其 相 邻 部 位 也 要 随 之 发 生 位 移 。 同 时 考虑 到 人 脸 运动 是 骨 洲 、 肌 
肉 、 皮 下 组 织 和 皮肤 共同 作用 的 结果 ， 其 运动 机 理 非常 复杂 ， 因 此 需要 生物 力学 的 知识 。 


8.2 人 上 脸 合成 技术 的 分 类 


对 于 人 脸 合 成 的 相关 技术 有 不 同 的 分 类 方式 ， 这 里 采用 以 几何 处 理 和 图 像 处 理 为 基础 的 
分 类 方式 。 图 8-1 所 示 是 按照 这 种 分 类 方式 对 人 脸 建 模 和 人 脸 动 画 驱 动 进行 分 类 的 框图 。 












































几何 处 理 
参数 图 像 变形 脉 管 表情 


基于 物理 学 有 限 伪 肌 肉 纹理 处 理 和 
的 肌肉 模型 元 法 gos 图 像 混合 
分 层 的 弹 基于 纯 向 自由 形 


图 8-1 人 脸 合 成 方法 分 类 框图 








基于 几何 处 理 的 方法 包括 插值 法 、 参 数 化 法 、 有 限 元 法 、 基 于 物理 学 的 肌肉 模型 法 、 伪 
肌肉 模型 法 等 。 基 于 图 像 处 理 的 方法 主要 可 以 分 为 如 下 几 类 : 二 维 与 三 维 图 像 变 形 、 脉 管 表 
情 、 纹 理 处 理 和 图 像 混 合 等 法 。 

1. 基于 几何 处 理 的 方法 

(1) 插值 法 ”插值 法 提供 了 一 种 直观 的 实现 人 脸 合 成 的 方法 。 典 型 的 是 ， 一 个 插值 函 
数 确定 了 单位 时 间 间 隔 内 相 令 两 个 关键 帧 之 间 的 平滑 过 渡 。 插 值 也 数 可 以 根据 需要 选取 ， 如 
线性 插值 、 余 弦 插 值 、 径 向 基 函 数 插值 。 通 过 改变 插值 聘 数 的 参数 可 以 生成 不 同 的 插值 图 
像 。 几 何 插值 方法 可 以 直接 控制 网 格 来 改变 脸 部 网 格 顶 点 的 坐标 ， 而 参数 插值 法 能 够 通过 改 
变 函 数 参 数 和 函数 本 身 间接 地 移动 网 格 点 。 尽 管 插值 运算 简单 是 速度 非常 快 ， 而 且 容易 生成 
原始 的 人 脸 表 情 ， 但 是 由 于 它 表 现 能 力 的 限制 和 人 脸 的 复杂 性 ， 使 用 它 创 建 大 范围 具有 真实 
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感 的 人 脸 表情 状态 空间 的 能 力 有 限 ， 并 且 该 方法 很 难 将 相互 没有 关联 的 人 脸 关键 帧 进行 插值 
组 合 ， 但 在 需要 基于 少数 关键 帧 产生 一 组 连续 动画 时 ， 插 值 法 仍然 不 失 为 一 个 好 方法 。 

(2) 参数 化 法 ”参数 化 技术 克服 了 简单 插值 的 一 些 局 限 性 。 理 想 情况 下 ， 参 数 化 技术 
通过 组 合 一 些 独立 的 参数 值 可 以 生成 任何 可 能 的 人 脸 表 情 。 与 插值 技术 不 同 ， 参 数 化 允许 直 
接 控 制 特 定 的 表情 配置 (Facial Configuration) ， 而 且 经 过 少量 的 计算 ， 就 可 以 通过 组 合 参 数 
来 获得 各 种 丰富 的 人 脸 表情 ， 通 过 设 定 参 数 作 用 区 ， 还 可 以 减少 计算 工作 量 。 但 是 ， 由 于 人 
脸 的 复杂 性 ， 很 难 设计 完全 相互 独立 的 参数 ， 当 用 对 同一 个 项 点 都 起 作用 但 有 冲突 的 两 个 参 
数 区 获得 调和 表情 时 ， 并 没有 一 种 系统 的 手段 来 仲裁 该 如 何 选取 这 两 个 相互 冲突 的 参数 ， 故 
而 参数 间 存 在 冲突 时 ， 参 数 化 方法 通常 只 能 产生 不 自然 的 人 脸 表 情 或 外 形 。 为 此 ， 人 们 只 在 
特定 的 脸 部 区 域 使 用 参数 化 方法 ， 以 避免 产生 相互 冲突 的 参数 ， 但 这 样 又 会 在 脸 部 造成 明显 
的 运动 边界 。 参 数 化 方法 的 另外 一 个 局 限 是 参数 集 的 选择 依赖 于 人 脸 网 格 的 拓扑 结构 ， 因 此 
一 个 完全 通用 的 参数 化 是 不 可 能 有 的 。 在 具有 不 同 的 拓扑 结构 上 使 用 参数 集 需要 增加 模型 的 
适 配 过 程 ， 这 不 仅 影响 了 模型 的 通用 性 ， 而 且 为 了 设 定 最 佳 的 参数 值 ， 需 要 大 量 的 人 工 调 
整 ， 尽 管 如 此 ， 也 可 能 产生 不 真实 的 运动 或 形状 。 

(3) 基于 物理 学 的 肌肉 模型 法 ”基于 物理 学 的 肌肉 模型 可 以 分 为 三 类 : 质点 弹 得 
(Mass Spring) 模型 、 向 量 表示 模型 和 分 层 弹 性 网 格 模型 。 质 点 弹簧 法 在 一 个 弹性 网 格 中 传 
播 肌肉 拉力 ， 从 而 导致 肌肉 的 变形 。 向 量 肌肉 法 在 影响 区 域内 用 运动 场 的 形式 来 对 脸 部 网 格 
变形 。 分 层 弹 性 网 格 法 则 是 将 一 个 质点 弹簧 结构 扩展 为 三 个 相连 的 网 格 层 ， 从 而 更 逼真 地 模 
拟 真 实 人 脸 的 物理 行为 。 

1) 质点 弹簧 法 : 在 弹簧 网 中 传播 肌肉 作用 力 ， 以 对 皮肤 变形 建 模 。 通 过 肌肉 弧 将 力作 
用 在 弹性 网 格 上 ， 以 生成 人 脸 表 情 。 

2) 向 量 肌肉 法 : 该 方法 通过 一 个 描述 型 的 变形 场 来 对 肌肉 动作 对 皮肤 的 作用 进行 建 
模 ， 其 基本 思想 是 将 特定 的 肌肉 参数 值 赋予 脸 部 肌肉 模型 。 这 些 参数 仅 是 一 种 抽象 ， 并 不 用 
来 模拟 生理 学 或 心理 学 的 机 制 。 不 同人 脸 的 网 格 顶 点 或 控制 项 点 由 附 在 这 些 点 上 的 参数 肌肉 
模型 所 控制 ， 脸 部 的 拓扑 结构 在 运动 中 保持 不 变 ， 肌 肉 的 运动 仅 限 于 变形 区 域 ， 肌 肉 被 定义 
成 向 量 的 形式 ,包含 原点 和 插入 点 。 其 作用 范围 由 余弦 函数 和 衰减 因子 定义 。 当 作用 范围 被 
可 视 化 为 一 个 高 度 场 时 ,余弦 函数 和 衰减 因子 产生 一 个 圆锥 的 形状 。 然 而 由 于 人 脸 结 构 的 不 
确定 性 ， 按 解剖 学 结构 正确 地 放置 向 量 肌肉 是 非常 困难 的 ， 至 今 还 没有 一 个 能 够 将 向 量 肌肉 
自动 放置 到 人 脸 网 格 中 的 方法 ， 整 个 过 程 需要 手工 试验 ， 而 且 不 能 保证 结果 是 有 效 的 和 最 优 
的 。 尽 管 放置 不 正确 的 向 量 肌 肉 会 导致 不 自然 的 甚至 是 奇怪 的 表情 动画 ， 但 是 这 种 模型 的 表 
现形 式 非 常 紧凑 ， 而 且 独 立 于 人 脸 网 格 的 结构 ， 所 以 该 模型 目前 得 到 广泛 的 使 用 。 

3) 分 层 弹 性 网 格 法 : Terzopoulos 和 Waters 给 出 了 能 模拟 细微 解剖 结构 的 人 脸 模 型 和 动 
态 人 脸 。 可 变形 网 格 包含 三 层 : 皮肤 、 脂 肪 组 织 和 附 于 骨头 的 肌肉 层 。 具 有 弹性 的 弹簧 元 素 
连接 每 个 网 格 节 点 和 每 一 层 。 肌 肉 拉 力 通过 弹性 网 格 的 传播 产生 脸 部 表情 。 这 种 建 模 方 法 具 
有 很 强 的 真实 感 。 但 是 使 用 三 维 网 格 模拟 体 变形 需要 巨大 的 计算 开销 。 

(4) 有 限 元 法 “有 限 元 法 是 一 种 逼近 任意 复杂 物体 物理 特性 的 数值 方法 。 一 个 物体 被 
分 解 为 区 域 或 者 体 元 素 ， 每 个 元 素 都 被 赋予 物理 参数 。 元 素 间 的 动态 关系 是 通过 将 分 段 的 组 
成 部 分 整合 到 整个 物体 中 得 到 的 。 这 种 方法 是 计算 非常 密集 的 方法 。 

(5) 伪 肌 肉 模型 法 〈 模 拟 肌肉 法 ) ”通过 建 模 逼 近 人 的 解剖 结构， 以 产生 真实 感 的 结 
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果 。 肌 肉 的 作用 力 是 通过 样 条 、 线 或 者 自由 变形 (Free Form Deformation, FFD) 模型 得 到 
的 。 

1) 自由 变形 模型 : 通过 操纵 分 布 在 一 个 三 维 网 格 上 的 控制 点 来 对 体 对 象 进行 变形 。 
FFD 可 以 使 多 种 类 型 的 表面 图 元 变形 ， 包 括 多 边 形 、 二 次 、 参 数 和 隐 含 曲面 ， 以 及 实体 模 
型 。 男 一 种 方法 是 有 理 自由 变形 (Rational FFD，RFFD) ， 包 括 了 每 一 个 控制 点 的 权重 。 
Dirichlet 自由 变形 (DFFD) 是 男 一 种 自由 变形 的 方法 。 

2) 样 条 模型 : 支持 平滑 和 灵活 的 变形 ， 人 允许 曲面 的 局 部 变形 ,减少 了 计算 复杂 度 。 

3) 线 模型 : 一 组 域 曲线 构成 了 一 个 隐 舍 的 建 模 图 元 。 

2. 基于 图 像 处 理 的 方法 

(1) 二 维 与 三 维 图 像 变 形 ”二 维 图 像 的 变形 由 目标 图 像 中 对 应 点 的 集合 和 一 个 并 发 的 
淡 进 淡出 构成 。 典 型 的 是 ， 对 应 关系 是 人 工 指 定 的 。 二 维 与 三 维 方 法 可 以 生成 真实 的 人 脸 表 
Té, 但 是 它们 也 具有 与 插值 方法 类 似 的 局 限 性 。 

(2) KERE ”真实 的 人 脸 建 模 和 动画 不 仅 需要 人 脸 的 变形 ， 而 且 需 要 随 人 的 情感 状 
态 不 同 而 呈现 出 皮肤 颜色 的 变化 。 可 以 通过 在 发 生 强烈 情感 时 相应 改变 所 有 面 片 的 颜色 或 通 
过 纹理 映射 来 达到 这 个 目标 ， 在 这 个 方面 的 研究 不 是 很 多 。 

(3) 模型 匹配 ”将 一 个 预先 定义 好 的 模型 匹配 到 人 脸 图 像 上 。 人 脸 模 型 可 以 具有 任意 
精度 ， 但 是 通常 只 能 定位 出 人 脸 的 一 个 大 致 轮廓 和 一 些 人 脸 特 征 运动 。Ahlberg 描述 了 一 个 
基于 图 像 的 人 脸 模 型 匹配 算法 。 

(4) 基于 跟踪 的 表情 映射 ”使 用 其 他 方法 来 获得 像 真 人 一 样 的 人 脸 表 情 有 各 种 各 样 的 
困难 。 因 而 产生 了 一 种 基于 表演 驱动 (Performance Driven) 的 方法 ,使 用 跟踪 演员 得 到 的 运 
动 来 控制 角色 的 表情 。 实 时 的 视频 处 理 允 许 交 互 的 动画 得 以 生成 ， 演 员 可 以 实时 地 看 到 他 们 
创造 的 运动 和 表情 。 准 确 地 跟踪 人 脸 特 征 和 边缘 对 保持 表情 的 移植 性 和 真实 感 非常 重要 。 

另 一 种 分 类 方式 是 将 人 脸 合 成 技术 分 成 基于 模型 的 方法 和 基于 图 像 库 的 方法 。 在 近 30 
年 的 时 间 里 ， 传 统 的 人 脸 合 成 方法 都 是 基于 三 维 物体 来 进行 建 模 的 。 在 基于 模型 的 方法 中 ， 
需要 定义 模型 控制 参数 ， 利 用 几何 、 声 学 或 者 肌肉 模型 来 使 三 维 结构 发 生变 化 。 目 前 用 在 人 
脸 合 成 系统 中 的 大 部 分 模型 都 是 派生 于 Parke 等 人 的 模型 ， 控 制 参数 通过 几何 函数 来 移动 脸 
部 项 点。 一 些 基 本 的 操作 在 脸 部 区 域 中 逐渐 变 小 ， 然 后 融入 周围 地 区 。 区 域 之 间 的 内 插 用 来 
产生 表情 或 者 改变 形状 。 每 一 个 区 域 都 是 独立 受 控 于 极端 形状 之 间 ， 并 且 与 某 个 参数 相 联 
系 。 控 制 参数 可 以 是 某 个 点 的 三 维 坐标 ， 比 如 嘴角 ， 也 可 以 是 驱动 复杂 的 变形 。 这 样 的 合成 
机 制 成 为 MPEG-4 的 标准 。 基 于 模型 的 方法 能 够 灵活 地 对 模型 进行 控制 ， 模 型 可 以 做 出 包括 
真实 人 脸 没 有 办 法 做 出 的 几乎 各 种 动作 ， 在 处 理 速度 上 也 比较 快 ， 但 是 在 真实 感 上 有 较 大 的 
差异 ， 容 易 产 生 “ 人 造 ”的 感觉 ， 这 是 由 真实 人 脸 的 复杂 度 和 精细 度 决 定 的 。 另 一 种 人 脸 
合成 方法 是 基于 图 像 库 的 方法 ， 对 基于 模型 的 方法 发 起 了 挑战 。 这 种 方法 类 似 于 大 语料库 语 
音 合 成 技术 ， 只 是 处 理 的 对 象 不 是 语音 而 主要 是 图 像 。 这 种 方法 的 基本 处 理 步 又 是 : 从 一 个 
事先 建立 好 的 真人 图 像 库 中 根据 一 定 的 规则 挑选 视频 片断 ， 然 后 做 相关 的 图 像 处 理 ， 最 后 进 
行 拼 接 ， 从 而 达到 合成 的 目的 。 这 种 方法 思想 简单 ， 合 成 人 脸 的 通 真 程度 和 真人 没有 任何 区 
别 ， 但 是 建立 合适 、 紧 凑 的 高 质量 的 图 像 库 却 并 非 易 事 ， 而 且 此 方法 只 能 够 合成 图 像 库 中 已 
有 的 人 脸 姿态 和 表情 ， 以 及 这 些 表情 的 插值 表情 ， 在 处 理 速度 上 难以 达到 实时 要 求 。 

总 的 来 说 ， 人 脸 合成 主要 分 为 两 个 部 分 : 人 脸 建 模 和 人 脸 动 画 。 人 脸 建 模 主要 研究 人 脸 
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模型 的 静态 建 模 ， 合 成 人 脸 模 型 的 几何 外 形 特征 和 纹理 特征 。 其 中 ， 既 包含 了 如 何 合成 同一 
个 人 脸 模 型 在 不 同 的 表情 和 动作 状态 下 形状 和 纹理 特征 ， 也 包含 了 如 何 合 成 不 同人 脸 模 型 的 
形状 和 纹理 特征 。 人 脸 动 画 主要 研究 人 脸 的 动态 过 程 ， 研 究 人 脸 在 运动 和 做 表情 时 人 脸 外 形 
和 纹理 的 动态 变化 过 程 ， 及 如 何 合成 具有 真实 感 的 人 脸 动 画 序 列 。 

本 章 根据 人 脸 合成 的 流程 顺序 来 介绍 在 人 脸 合 成 中 常用 的 方法 与 技术 。 首 先是 人 脸 建 
模 ， 包 括 一 般 人 脸 模型 和 特定 人 脸 模 型 的 构建 ， 以 及 纹理 贴图 ; 然后 是 人 脸 动画 ， 包括 人 脸 
运动 和 表情 的 合成 。 


8.3 ”人 脸 几 何 建 模 


人 脸 的 外 观 特征 主要 分 为 两 部 分 : 几何 (Geometry) 外 观 和 纹理 (Texture) 外 观 。 人 
脸 的 几何 外 观 指 的 是 人 脸 的 几何 外 形 特征 ， 如 鼻子 的 高 低 、 嘴 部 的 宽 罕 等 可 以 在 三 维 空间 中 
进行 度量 的 特征 。 人 脸 的 纹理 外 观 指 的 则 是 人 脸 的 色彩 〈 灰 度 ) 特征 ， 如 肌肤 的 颜色 与 明 
暗 、 眼 球 的 颜色 等 可 以 在 图 像 空 间 中 进行 度量 的 特征 。 这 种 对 人 脸 特 征 的 划分 方式 便于 计算 
机 对 人 脸 的 表示 和 泻 娄 。 因 此 ， 计 算 机 人 脸 建 模 工作 要 包括 两 个 过 程 : 构造 人 脸 几 何 模型 和 
纹理 的 处 理 〈 生 成 真实 感 的 人 脸 ) 。 而 构造 人 脸 几 何 模型 过 程 又 包括 脸 部 数据 的 获取 和 脸 部 
模型 的 表示 等 两 项 工作 。 

人 脸 建 模 要 同时 表现 出 与 人 脸 部 有 联系 的 组 织 和 器 官 的 特征 、 形 状 、 变 形 和 和 运动， 人 脸 
形状 的 复杂 性 和 人 们 对 于 人 脸 细 节 的 敏感 性 使 人 脸 建 模 成 为 一 项 困难 而 又 费时 的 工作 。 因 
此 ， 在 进行 人 脸 建 模 时 ， 应 根据 具体 的 应 用 要 求 ， 选 择 合适 的 建 模 方法 。 

首先 介绍 人 脸 几 何 建 模 。 人 脸 几 何 建 模 就 是 把 真实 人 脸 的 框架 标准 化 ， 然 后 用 网 格 表示 
出 来 ， 作 为 将 来 生成 真实 感人 脸 和 面部 动画 的 基础 。 


8.3.1 人 上 脸 模型 的 表达 形式 


人 脸 不 同 生理 层 之 间 的 相互 作用 使 模拟 人 脸 变 形成 为 一 项 非常 复杂 和 困难 的 工作 。 同 
时 ， 对 于 人 脸 变形 的 模拟 也 依赖 于 人 脸 模 型 的 表示 方法 。 因 此 ， 将 人 脸 模型 的 表示 和 变形 方 
法 分 开 是 很 困难 的 。 通 常 ， 人 脸 模型 是 几何 表示 和 变形 方法 的 结合 体 。 因 此 ， 在 选择 人 脸 模 
型 的 表示 方法 时 应 考虑 应 用 的 要 求 和 变形 方法 。 

表示 人 脸 模 型 常用 的 技术 大 致 可 以 分 为 多 边 形 建 模 技术 、 曲 面 建 模 技 术 。 多 边 形 建 模 技 
术 通 常 采 用 矩形 网 格 和 三 角形 网 格 来 表示 横 型 。 与 多 边 形 表示 方法 相 联系 的 脸 部 变形 方法 有 
关键 帧 插值 法 、 参 数 法 、 基 于 物理 学 的 肌肉 变形 法 、 伪 肌肉 变形 法 等 。 尽 管 多 边 形 表示 法 在 
各 种 人 脸 模 型 被 广泛 使 用 ， 但 它们 却 常 常 不 能 很 好 地 表现 人 脸 部 的 平滑 性 和 弹性 。 曲 面 建 模 
技术 为 此 提供 了 一 个 很 好 的 解决 办 法 。 曲 面 建 模 技术 包括 样 条 模型 和 有 限 元 模型 等 。 与 曲面 
建 模 技 术 相 联系 的 变形 方法 有 : 参数 化 法 、 基 于 物理 学 的 肌肉 变形 法 、 伪 肌肉 变形 法 等 。 

l. 多 边 形 建 模 技术 

多 边 形 建 模 技 术 是 用 矩形 网 格 或 者 三 角形 网 格 来 表示 人 脸 的 几何 ， 并 且 在 网 格 上 选取 一 
些 控制 点 ， 通 过 控制 点 的 移动 来 带动 网 格 的 形变 ， 这 样 就 可 以 得 到 产生 动画 的 效果 。 运 用 这 
种 方法 可 以 获得 精细 的 脸 部 几何 结构 和 纹理 ， 合 成 各 种 脸 部 变形 ， 实 现 自然 的 、 完 全 可 控 的 
脸 部 动画 。 均 匀 网 格 和 非 均匀 网 格 是 多 边 形 建 模 技术 中 常用 的 技术 。 用 非 均匀 网 格 可 以 突出 
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面部 的 细节 ， 并 且 降 低 计算 的 复杂 度 。 和 辟 如 ， 在 面部 的 眼睛 和 嘴 部 采用 密度 比较 大 的 网 格 来 
表示 它们 ， 这 样 就 更 容易 突出 它们 的 细节 ， 而 在 脸 科 和 后 脑 等 这 些 部 位 可 以 用 密度 较 小 的 网 
格 来 表示 它们 。 

2. 曲面 建 模 技术 

采用 曲线 /曲面 来 建立 人 脸 几 何 模型 有 如 下 一 些 优点 : 由 于 通常 采用 的 解析 曲线 /曲面 具 
有 多 阶 连续 性 ， 所 以 用 这 种 方法 建立 的 人 脸 模型 具有 光滑 的 表面 ; 利用 解析 曲线 /曲面 的 几 
何 性 质 ， 可 以 容易 地 对 人 脸 模 型 的 几何 外 形 进 行 修改 和 调整 。 使 用 曲线 /曲面 表示 的 人 脸 几 
何 模型 所 占用 的 存储 空间 较 小 ， 只 需要 存储 相应 的 曲线 /曲面 参数 即 可 。 其 缺点 是 这 种 方法 
通常 只 能 较 粗略 地 描述 人 脸 的 几何 外 形 ， 对 人 脸 的 某 些 几何 细节 难以 做 高 精度 的 描述 ; 如 果 
要 较 精 确 地 描述 这 些 细节 ， 则 整个 建 模 方 法 的 代价 较 大 。 另 外 ， 由 于 人 脸 不 同 部 分 有 不 同 的 
几何 分 辨 率 ， 人 们 和 希望 采用 不 同 的 精度 来 描述 人 脸 的 不 同 部 分 ， 几 何 细节 较 多 的 地 方 采 用 较 
高 的 精度 来 描述 ; 反之， 则 采用 较 低 的 精度 。 而 解析 曲线 /曲面 建 模 方 法 是 一 种 全 局 性 的 建 
模 方法 ， 难 以 采用 多 分 辨 率 〈Mnulti-resolution) 对 模型 局 部 进行 建 模 。 

曲面 建 模 技术 主要 包括 样 条 模型 和 有 限 元 模型 。 常 用 的 样 条 模型 有 B 样 条 模型 ， 这 是 
由 于 B 样 条 控制 的 精确 性 ， 实 现 的 人 脸 模 型 可 以 用 任意 精度 忠实 于 原始 人 脸 。 但 是 由 于 B 
样 条 的 控制 点 并 不 是 直接 作用 于 模型 表面 的 ， 所 以 对 于 曲率 变化 较 大 的 地 方 不 是 很 容易 实现 
的 。 另 外 ，B 样 条 模型 很 难 实现 孔 、 洞 等 形状 ， 这 也 给 人 脸 建 模 带 来 不 便 。 关 于 B 样 条 曲 
线 、 曲 面 的 定义 和 基本 算法 可 见 参 考 文献 [4]。 有 限 元 模型 常用 于 皮肤 的 形变 计算 ， 其 缺 
点 是 计算 量 太 大 。 这 种 模型 适合 医学 方面 的 应 用 ， 不 适用 于 实时 的 人 脸 动画 系统 。 

目前 广泛 采用 的 人 脸 几 何 建 模 方法 是 用 网 格 模型 来 描述 人 脸 的 几何 外 形 。 基 于 网 格 模型 
的 人 脸 几 何 建 模 最 大 的 优点 在 于 其 灵活 性 。 由 于 网 格 模型 可 以 任意 增加 或 者 删除 项 点 和 面 
片 ， 而 这 样 的 操作 具有 局 部 项 点 和 面 片 在 增删 时 不 会 影响 模型 其 他 部 分 的 几何 形状 ， 所 以 整 
个 网 格 模 型 可 以 用 多 种 几何 分 辩 率 来 表现 模型 的 不 同 部 分 。 在 模型 几何 细节 较 少 的 地 方 ， 是 






































































































































用 稀 琉 的 顶点 和 面 片 来 表现 的 ， 而 在 几何 细节 较 多 的 地 方 ， 则 是 用 稠密 的 顶点 和 方法 面 片 来 
表现 的 。 


8.3.2 一 般 人 上 脸 模型 


不 同 的 人 脸 之 间 有 着 共同 的 特征 ， 每 个 人 的 脸 部 都 有 眉毛 、 了 眼睛 、 盘 子 、 嘴 巴 、 耳 条 等 
融 官 ， 器 官 形状 基本 相同 ， 且 每 个 涡 官 在 面部 的 相对 位 置 是 稳定 的 ， 如 人 的 眼睛 在 头 部 的 
1/2 处 ， 儿 童 和 老人 约 在 1/3 AF; 眉毛 外 角 号 到 下 眼眶 ， 再 到 具 翼 上 缘 ， 三 点 之 间 的 距离 
相等 ， 两 耳 在 眉 与 鼻尖 之 间 平 行 线 内 等 。 

面部 特征 的 个 体 差异 也 是 客观 存在 的 ， 世 界 上 根本 不 存在 两 张 完全 相同 的 人 脸 ， 即 使 是 
看 起 来 非常 相似 的 双胞胎 ， 在 某 些 方面 也 存在 着 不 同 之 处 。 对 于 一 个 特定 人 而 言 ， 有 眼睛 的 大 
小 、 鼻 子 的 高 低 、 嘴 层 的 形状 以 及 相互 之 间 的 位 置 等 都 刻画 了 这 个 人 的 面部 特征 ， 而 这 些 面 
部 特征 可 以 被 我 们 定义 的 人 脸 特征 点 所 反映 。 

由 于 人 脸 的 特征 点 有 限 ， 而 人 的 面部 是 十 分 复杂 的 ， 要 想 使 用 有 限 的 特征 点 数据 直接 进 
行人 脸 三 维 重建 基本 上 不 太 可 能 ， 但 是 可 以 利用 人 脸 之 间 的 共性 与 差异 来 完成 三 维 重建 。 可 
以 定义 一 张 典 型 的 、 不 具备 任何 明显 特征 的 人 脸 作为 一 般 人 脸 ， 使 用 特定 人 脸 与 一 般 人 脸 的 
特征 点 差异 对 一 般 人 脸 模 型 进行 修改 ,使 其 通过 变形 向 特定 人 脸 的 真实 造型 双 近 ， 从 而 得 到 
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特定 人 脸 的 三 维 造型 。 

一 般 人 脸 模型 是 一 般 人 脸 的 三 维 控制 网 格 模 型 ， 是 对 一 般 人 脸 的 真实 测量 数据 经 过 数据 
压缩 后 得 到 的 有 效 的 控制 网 格 数 据 。 根 据 前 人 已 有 的 研究 ， 一 个 优秀 的 标准 模型 应 该 具备 以 
下 几 个 特点 : 

1) 参数 化 利用 具体 人 脸 的 信息 ， 调 节 参 数 能 够 描述 出 个 性 特征 ， 从 而 形成 了 个 性 人 脸 
模型 。 

2) 能 形象 化 地 、 准 确 地 描述 人 脸 的 基本 形状 ， 并 能 做 一 些 表情 动作 。 

3) 简单 化 模型 顶点 越 多 ， 描 述 人 脸 的 精度 就 越 高 ， 但 是 给 模型 的 拟 合 和 后 期 处 理 增 加 
了 困难 。 但 是 顶点 太 少 又 不 能 精确 地 描述 人 脸 的 细节 ， 因 此 需要 在 模型 的 复杂 性 和 精度 之 间 
作 一 个 折 中 。 

20 世纪 90 年 代 ， 各 研究 组 纷纷 提出 了 自己 的 人 脸 模 型 ， 其 中 普遍 应 用 的 是 网 格 模型 和 
统计 模型 。 

1. 网 格 模型 

PIER (Mesh Model) 是 应 用 比较 广泛 的 人 脸 的 三 维 模型 。 网 格 模型 的 一 般 数 学 描述 
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M = {VuFuCu| (8-1) 
WP, V 为 网 格 节 点 集合 ; Fs 为 组 成 面 片 的 节点 编号 集合 ; Cu 为 节点 或 面 片 的 属性 。 根 
据 面 片 的 形状 ， 可 以 把 模型 分 为 三 角 面 片 模型 和 四 边 形 面 片 模型 两 种 。 比 较 流 行 的 是 基于 三 
角 面 片 的 网 格 模 型 。 

网 格 节 点 在 一 些 文献 中 被 称 为 控制 点 (Control Vertex) 、 特 征 点 (Feature Vertex) 等 。 
它们 的 分 布 往往 是 不 均匀 的 ， 关 键 部 位 (如 眼睛 、 嘴 巴 、 嘴 角 等 处 ) 节点 密集 一 些 , 平滑 
WE CHASE. BSJSARAB) 节点 稀 玻 一 些 。 节 点 越 多 ， 三 角形 平面 越 多 ， 表 达 的 头 部 模型 
越 盘 真 ， 但 是 同时 也 增加 了 模型 的 复杂 度 ， 给 后 期 处 理 添 加 了 困难 。 在 这 个 方面 的 研究 者 努 
力 的 方向 ， 是 利用 最 少 的 节点 和 三 角 面 片 来 建立 逼真 的 头 部 模型 。 代 表 性 的 模型 有 Decarlp 
等 人 的 B 样 条 模型 、Liu 等 人 的 中 性 人 脸 模 型 (Neutral Face Model)“ 和 Ahlberg 的 CAN- 
DIDE-3 模型 。 

TE A RJV ^E B DeCarlo 等 人 利用 人 体 测量 学 得 到 的 数据 结合 变 分 技术 ( Variation 
Techniques) 建立 了 网 格 模型 。 他 们 的 做 法 是 根据 人 体 测 量 学 知识 ， 在 人 的 头 部 规定 一 些 能 
表征 特征 的 特征 点 ， 然 后 利用 人 脸 测量 方法 测量 这 些 特征 点 和 它们 之 间 的 关系 。 这 些 测量 值 
包括 两 点 之 间 的 最 短 距离 、 切 线 距离 、 两 点 连 线 与 坐标 轴 的 倾角 等 132 个 数值 。 对 这 些 测量 
数据 利用 变 分 技术 进行 处 理 ， 然 后 用 B 样 条 曲面 将 三 维 模型 表示 出 来 。 这 种 方法 能 比较 逼 
真 地 描述 个 性 特征 ， 但 是 需要 复杂 的 测量 工作 和 被 测 对 象 的 良好 配合 。 

微软 研究 院 Liu 和 Zhang 等 人 在 艺术 家 的 帮助 下 ， 建 立 了 一 种 中 性 脸 的 网 格 模型 。 这 种 
模型 由 194 个 关键 点 和 360 个 三 角 平 面 组 成 ， 并 且 构 建 了 65 个 可 调 向 量 用 于 模型 的 变形 。 
中 性 脸 用 向 量 So 表示 为 

















































































































So = (astu (8-2) 
XB, vo; (i21, 2, «5, n) ARBAB, v= (OG, Yi, Z) WII EH M 来 表 
示 ， 则 有 

M, = (5o ,*:,095,) (8-3 ) 


J 


780 


式 中 ， Óv; ; (i=l, 2 Ut, n) 为 对 应 关键 点 的 调节 坐标 60; ; = (dX,, óY,, 6Z,) 5 则 一 个 
新 脸 就 可 以 用 $ 来 表示 





S = S, + > CM, (8-4) 
j=l 


通过 改变 系数 C; 可 以 描述 不 同 的 脸型 。 利 用 这 种 模型 ， 根 据 两 幅 图 像 和 两 个 图 像 序列 
来 模拟 特定 人 脸 ， 取 得 了 较 好 的 效果 。 此 种 模型 的 可 调 参 数 较 少 ， 可 以 比较 方便 地 进行 模型 
的 变形 。 

瑞典 Linkoping 大 学 的 图 像 编 码 组 (Image Coding Group) 多 年 来 一 直 从 事 三 维 建 模 工 
作 。 从 Rydfalk1987 年 公布 最 初 的 人 脸 模 型 以 来 ， 他 们 的 模型 版 本 已 经 修改 了 多 次 。2001 
4E, Ahlberg 发 布 了 最 新 的 版 本 CANDIDE-3 。 这 个 版 本 为 了 达到 与 MPEG-4 标准 的 统一 ， 对 
原 有 的 模型 做 了 改动 。 此 模型 包括 113 个 关键 点 和 168 个 三 角 面 片 ， 控 制 参数 由 静态 人 脸 定 
义 参 数 (Facial Definition Parameters ，FDP) 和 动态 人 脸 动 画 参 数 (Facial Animation Parame- 
ters, FAP) 组 成 。 静 态 参 数 用 来 描述 不 同人 脸 之 间 的 差异 ， 动 态 参数 用 来 控制 脸 部 的 动作 ， 
并 且 根 据 动态 参数 可 以 进行 动作 编码 ， 在 视频 传输 方面 应 用 较 广 。 

总 之 ， 线 框 模型 的 建立 比较 简单 ， 而 且 有 许多 专业 的 三 维 造型 软件 (如 Maya, 
3DSMAX, Lightwave 等 ) 可 以 辅助 实现 。 因 此 ， 这 种 模型 为 新 的 算法 提供 了 一 种 方便 的 试验 
平台 ， 而 且 可 以 结合 插值 技术 或 肌肉 模型 形成 动画 。 目 前 许多 科研 单位 在 应 用 这 种 模型 。 

2. 统计 模型 

统计 模型 是 指 利用 统计 方法 从 大 量 采样 样本 中 找 出 人 脸 共 性 ， 建 立 统 计 意 义 上 的 标准 人 
脸 模型 ， 比 较 著名 的 有 形态 模型 和 三 维特 征 脸 。 

德国 学 者 Blanz 和 Veter 等 人 于 1999 年 研究 出 了 这 种 形态 模型 。 模 型 的 基础 是 一 个 含有 
200 个 青年 面部 数据 信息 的 三 维 人 脸 数 据 库 ， 三 维 信 息 由 激光 扫描 仪 获 得 ， 包 括 距离 信息 和 
颜色 信息 。 每 个 头 部 数据 称 为 一 个 样本 脸 (Exemplar Face) ， 每 个 样本 脸 包 括 大 约 7 万 个 点 ， 
然后 利用 复杂 的 光 流 算法 建立 不 同人 脸 的 三 维 点 的 关系 。 假 设 一 个 人 脸 的 形状 可 以 用 向 量 F 
来 表示 ， 有 













































































F = (X,Y,Z, X,Y,Z)" (8-5) 
式 中 , Xa Y. Z 分 别 表示 三 维 点 的 坐标 。 
对 应 点 的 纹理 信息 可 以 用 向 量 了 来 表示 ， 有 
T = (RGB RGB (8-6) 
AP, R, G, B 代表 点 颜色 分 量 。 设 有 个 样本 脸 ， 每 个 样本 脸 由 一 个 形状 向 量 和 一 个 
纹理 向 量 组 成 ， 则 形态 模型 可 以 由 这 样 的 m 个 样本 脸 构成 。 对 于 一 个 新 的 个 体 ， 它 的 形状 
向 量 和 纹理 向 量 可 以 分 别 描述 为 











Pd = a,F, (8-7) 
i=l 

T mod A b; T; (8-8) 
i=l 

3 4 = 5 =l (8-9) 





通过 对 系数 w Alb; 的 调节 ， 可 以 描述 不 同人 脸 的 三 维 形状 特征 和 纹理 特征 。 三 维特 征 
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脸 ”类 似 于 特征 脸 ， 对 预先 构建 的 三 维 模型 用 主 成 分 分 析 方 法 降 维 ， 获 得 表征 脸 部 形状 的 
主要 分 量 ， 利 用 它们 的 线性 组 合 表 达 个 性 化 的 人 脸 模型 。 建 立 统计 模型 通常 比较 麻烦 ， 需 要 
大 量 的 学 习 数 据 ， 而 且 三 维 数据 的 预 处 理工 程 非常 复杂 ， 建 成 后 的 模型 具有 统计 意义 上 的 合 
理 调节 参数 ， 使 脸 部 表情 达到 合理 化 。 


8.3.3 特定 人 脸 模型 


特定 人 脸 建 模 是 指 利用 具体 人 脸 信息 建立 个 性 化 的 人 脸 模型 ， 用 以 描述 不 同人 的 具体 特 
征 。 按 照 模型 的 产生 方式 可 以 把 构造 个 性 化 人 脸 模型 的 方法 分 成 两 类 : 一 类 是 根据 已 知 具 体 
人 脸 的 三 维 信息 直接 构造 三 维 模型 的 方法 ， 如 基于 扫描 仪 、 数 字 化 探 针 、 立 体 相机 和 基于 计 
算 机 视觉 的 方法 (如 光 流 技术 和 结构 光 方法 ) ; 另 一 类 是 对 一 般 模型 进行 拟 合 和 变形 建立 个 
性 化 特定 人 脸 模型 的 方法 ， 如 基于 正 交 照片 的 三 维 重建 。 前 者 往往 根据 具体 数据 采用 插值 、 
曲面 优化 等 技术 达到 建 模 的 目的 ， 通 常 对 数据 的 要 求 比较 苛刻 ， 如 要 求 数据 点 分 布 均匀 且 品 
声 较 小 ， 但 建成 后 的 模型 缺乏 结构 信息 。 后 者 将 标准 人 脸 模型 作为 先 验 知识 ， 通 过 刚体 变 
换 、 形 变 等 手段 与 具体 的 人 脸 数 据 拟 合 达到 形状 匹配 ， 并 且 利用 图 像 合 成 面部 纹理 信息 从 而 
建立 逼真 的 三 维 个 性 模型 。 

L 直接 构造 特定 人 脸 三 维 模型 的 方法 

直接 构造 特定 人 脸 三 维 模型 的 方法 一 般 有 图 8-2 所 示 的 流程 。 

直接 构造 特定 人 脸 三 维 模型 的 方法 除了 有 8. 3.2 节 介 FRI FRI e 
绍 的 方法 外 ， 还 有 基于 立体 照相 机 和 计算 机 视觉 的 方法 。 [E IM X I9 外 ii 



















































































立体 照相 机 这 样 的 距离 测试 方法 能 在 某 些 特征 点 处 建立 对 i 格 
应 关系 。 该 方法 使 用 立体 图 像 之 间 的 几何 关系 回复 曲面 的 图 8.2， 吉 接 构造 特定 人 脸 
深度 。Turing 学 院 的 C3D 2020 捕捉 系统 曾 用 立体 照相 镜 三 维 模 型 的 流程 


的 方法 产生 了 许多 虚拟 现实 建 模 语言 (VRML) 模型 。 计 
算 机 视觉 是 年 轻 的 仍 在 发 展 的 科学 。 根 据 三 维 视觉 、 几 何 和 辐射 学 方面 的 研究 成 果 ， 人 们 可 
以 从 对 应 点 计算 、 多 个 相机 组 合 、 物 体 的 轮廓 和 表面 反射 等 方法 来 获取 人 脸 模型 。 

用 这 种 方法 构造 的 模型 因为 没有 人 脸 结构 的 信息 ， 通 常 不 适合 脸 部 动画 ， 且 数据 带 有 噪 
声 、 顶 点 分 布 不 合理 。 

2. 对 一 般 模 型 进行 拟 合 和 变形 建立 特定 人 脸 模 型 的 方法 

这 类 方法 的 一 般 流 程 如 图 8-3 所 示 。 

从 一 般 模型 建立 个 性 化 模型 的 方法 是 ， 首 先 准备 一 个 原形 或 通用 动画 网 格 ， 它 带 有 所 必 
需 的 结构 和 动画 信息 。 然 后 将 该 模型 拟 合 或 变形 到 测量 出 的 特定 
人 脸 的 几何 网 格 上 ， 从 而 创建 出 个 性 化 的 动画 模型 。 当 通用 模型 
的 多 边 形 网 格 数 比 测量 出 的 网 格 数 少时 ， 拟 合 过 程 也 暗含 了 对 测 
量 数据 的 抽取 。 特 定 人 脸 的 造型 和 拟 合 过 程 可 以 使 用 不 同 的 方法 ， 
如 散乱 数据 的 插值 、 人 类 学 技术 和 结合 了 正 拉 普 拉 斯 场 函数 的 向 HOT RPE 
柱 面 坐标 投影 的 技术 。 有 些 方法 尝试 了 自动 的 拟 合 过 程 ， 但 大 多 isi cae ere 
数 方法 需 大 量 的 手工 交互 。 MEE 

(1) 双 线 性 插值 ”Parke 使 用 了 双 线性 插值 来 创建 不 同 的 人 脸 外 形 ""”。 他 假定 大 多 数 人 
脸 类 型 可 以 用 一 个 拓扑 结构 的 不 同 变化 来 表示 。 他 通过 改变 通用 人 脸 的 构造 参数 创建 了 10 
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个 不 同 的 人 脸 。Parke 的 参数 化 模型 受 限 于 所 给 定 的 构造 参数 的 范围 ， 而 且 在 一 张 特定 人 脸 
上 调节 参数 是 很 困难 的 。 

(2) 散乱 数据 播 值 径 向 基 函 数 能 通过 相对 较 少 的 点 和 揪 值 来 获得 光滑 的 人 脸 曲 面 。 
有 些 造型 方法 使 用 基于 径 向 基 范 数 的 散乱 数据 插值 技术 ， 将 一 个 通用 网 格 变 形成 特定 形状 。 
这 种 方法 的 优点 是 : 变形 不 需要 与 目标 网 格 相同 的 顶点 数 ， 这 是 因为 缺少 的 顶点 可 通过 插值 
得 到 ， 只 要 选择 恰当 的 对 应 关系 ， 就 能 从 理论 上 保证 被 变形 网 格 接 近 目 标 网 格 。 

Ulgen 使 用 了 三 维 体 变形 获得 从 通用 人 脸 模 型 到 目标 模型 的 光滑 过 渡 '"! 。 该 算法 首先 在 
两 个 模型 的 眼睛 、 鼻 子 、 嘴 层 和 轮廓 上 选择 一 些 具有 生物 意义 的 标识 。 这 些 标识 的 选择 应 该 
易于 标注 且 位 置 相 对 容易 确定 。 然 后 ， 利 用 这 些 标识 点 计算 出 用 于 体 变 形 的 Hardy 多 二 次 曲 
面 (Multi-quadric) 径 向 基 消 数 的 系数 。 最 后 ,根据 由 标识 点 计算 得 到 的 这 些 系数 ， 插 值得 
到 通用 网 格 上 的 其 他 点 的 位 置 。 例 如 : 一 个 通用 模型 使 用 了 1251 个 多 边 形 ， 而 目标 模型 具 
^H 1157 个 多 边 形 。150 个 标志 顶点 被 手工 标注 ， 其 中 50 个 在 鼻子 附近 。 显 然 ， 变 形成 功 与 
否 很 大 程度 上 依赖 于 标识 点 的 数量 和 位 置 。 

Pighin 等 人 采用 的 散乱 数据 插值 技术 的 拟 合 过 程 ”分 三 步 : 第 一 步 ， 估 计 摄 像 机 参数 
(位 置 、 方 向 和 焦距 ) ， 这 些 参数 与 手工 选择 的 对 应 点 相 结 合 产 生 脸 上 特征 点 的 三 维 坐 标 ; 
第 二 步 ， 根 据 特征 点 的 三 维 坐标 确定 用 于 变形 的 径 向 基 函 数 的 系数 ; 第 三 步 ， 用 辅助 的 对 应 
关系 进行 微调 。 一 个 少 于 400 个 多 边 形 的 通用 网 格 用 初始 的 13 个 对 应 点 变形 ， 最 后 是 99 个 
点 用 于 微调 。 

(3) 自动 建立 对 应 点 ”根据 拟 合 的 原理 ， 在 拟 合 时 需要 建立 源 和 目标 模型 之 间 的 精确 
对 应 关系 ， 不 正确 或 不 完整 的 对 应 关系 将 导致 很 差 的 拟 合 结果 。 手 工 选择 对 应 关系 能 够 建立 
比较 精确 的 对 应 关系 ， 但 是 这 是 一 项 艰辛 的 工作 ， 而 且 误差 积累 会 越 来 越 大 。 也 有 几 个 图 像 
处 理 的 方法 使 用 已 知 的 人 脸 属 性 尝试 自动 建立 对 应 点 ， 从 而 实现 自动 适 配 。 

Lee 等 人 ， 给 出 一 个 基于 激光 扫描 的 次 度 和 反射 数据 自动 构造 个 性 化 人 脸 模 型 的 方法 。 
为 了 获取 更 可 靠 的 自动 检测 人 脸 特 征 Lee 率先 在 深度 图 上 使 用 拉 普 拉 斯 算 子 ， 并 获得 拉 普 
拉 斯 场 图 。 拉 普 拉 斯 场 图 上 的 网 格 适 配 过 程 可 以 自动 确定 特征 点 。 预 先 标注 了 特征 的 通用 模 
型 通过 启发 式 网 格 适 配 过 程 被 对 应 到 三 维 网 格 几何 模型 和 纹理 上 。 

(4) 人 体 测 量 学 ”在 获取 个 性 化 的 人 头 模型 时 ， 由 于 激光 扫描 和 立体 图 像 能 分 别 获 
得 几何 细节 和 细腻 的 纹理 ， 所 以 被 广泛 使 用 。 然 而 ， 正 如 前 面 所 述 ， 这 些 方法 也 有 缺点 。 
扫描 数据 或 立体 图 像 经 常 由 于 这 挡 而 漏 掉 某 些 区 域 。 因 此 ， 必 须根 据 情 况 手 工 修补 模型 。 
现 有 的 自动 对 应 点 匹配 方法 还 不 够 鲁 棒 ， 若 特征 点 在 测 得 的 数据 上 不 明显 ， 则 仍 需 手 工 
调节 。 

在 人 脸 变 化 理想 而 且 不 需要 精确 的 外 貌 的 领域 ， 人 们 使 用 基于 人 体 测量 学 的 个 性 化 模型 
生成 方法 解决 了 上 述 问题 。Kuo 等 人 给 出 了 从 一 张 没有 深度 信息 的 正面 二 维 灰 度 图 合成 侧面 
人 脸 的 方法 。 该 算法 首先 需要 建立 根据 人 体 测 量 学 的 定义 测 得 的 人 脸 参 数 的 数据 库 ， 并 以 这 
个 数据 库 作为 先 验 知识 。 其 次 ， 通 过 将 基于 最 小 均 方 差 (MMSE) 的 佑 计 规 则 应 用 于 上 述 数 
据 库 ， 就 可 以 从 正面 的 人 脸 参 数 估计 出 侧面 人 脸 的 参数 。 侧 面 人 脸 参 数 的 深度 可 以 通过 儿 个 
正面 的 人 脸 参 数 线性 组 合 得 到 。 有 了 从 照片 中 抽取 的 正面 坐标 和 深度 估 值 ， 就 可 以 调整 通用 
的 三 维 人 脸 模型 ， 并 且 可 以 根据 特征 数据 和 纹理 映射 合成 侧面 人 脸 。 

BZR Kuo 仅 使 用 一 张 正面 图 像 的 人 体 测量 就 实现 了 个 性 模型 重建 ,但 Decarlo 等 人 更 
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是 实现 了 基于 无 图 像 辅助 的 人 体 测量 学 构造 不 同人 脸 模型 的 方法 。 该 系统 分 两 步 构 造 一 
张 新 的 人 脸 模 型 。 第 一 步 ， 产 生 一 个 代表 特定 人 脸 测 量 数据 的 随机 集 。 这 些 测量 数据 的 
形式 和 数值 是 参照 人 脸 的 人 体 测量 学 计算 出 来 的 。 第 二 步 ， 用 变 分 约束 优化 技术 构造 满 
足 几 何 约束 的 最 优 曲面 。 在 该 技术 中 ,一般 在 曲面 上 加 入 多 种 约束 ， 并 在 这 些 约 束 条 件 

， 尝 试 构 造 与 原始 形状 偏差 最 小 化 的 光滑 曲面 。 在 参考 文献 [16] 中 ， 以 人 体 测 量 学 
的 尺度 为 约束 ， 最 小 化 与 给 定 曲 面 的 目标 方程 的 偏差 来 决定 人 脸 的 其 他 部 分 。 不 同 的 模 
型 能 使 系统 捕捉 人 脸形 状 的 相似 性 ， 又 能 允许 出 现 人 体 测量 的 差异 。 尽 管 人 体 测 量 学 方 
法 在 快速 创建 出 令 人 满意 的 多 变 的 人 脸 几 何方 面具 有 优势 ,但 它 不 能 再 现 颜 色 、 皱 纹 、 
表情 和 头发 方面 的 真实 变化 。 

(5) 其 他 方法 ”Essa 等 人 用 标准 特征 空间 (Modular Figenspace) 方法 处 理 拟 合 问题 。 
这 种 方法 能 在 图 像 上 自动 抽取 眼睛 、 上 鼻子 和 嘴唇 等 特征 点 的 位 置 。 这 些 特 征 定义 了 使 特定 人 
脸 图 像 与 通用 人 脸 模 型 相 匹配 的 图 像 变形 。 图 像 变形 后 ， 从 图 像 中 抽取 出 可 变形 项 点 用 于 进 
一 步 的 细 化 。Dipaola 的 人 脸 动 画 系统 (FAS) 是 对 Parke 方法 的 扩展 。 它 通过 将 活体 或 雕塑 
数字 化 或 用 自由 变形 、 随 机 噪声 变形 或 定点 编辑 来 操作 已 有 的 模型 ， 从 而 产生 新 的 人 脸 模 
型 。 

从 一 般 人 脸 中 性 模型 到 特定 人 脸 中 性 模型 的 修改 过 程 中 ， 要 进行 两 种 变换 : 首先 要 对 一 
般 人 脸 模型 进行 整体 变换 ， 整 体 变换 的 目的 是 完成 面部 整体 轮廓 的 修改 ， 使 其 与 特定 人 脸 的 
脸形 和 五 官 的 大 致 位 置 相 匹配 ; 然后 在 对 整体 变换 后 的 人 脸 中 性 模型 进行 局 部 变换 ， 目 的 是 
根据 特定 人 脸 的 局 、 眼 、 口 、 鼻 的 形状 和 大 小 进行 修改 ， 即 在 一 般 人 脸 中 性 模型 上 打上 特定 
人 脸 特征 的 烙印 。 


8.4 纹理 映射 


简单 地 说 ， 纹 理 分 为 两 种 : 一 种 是 通过 颜色 色彩 或 明暗 的 变化 体现 出 表面 细节 ， 这 种 纹 
理 称 为 颜色 纹理 ; 另 一 种 纹理 则 是 由 于 不 规则 的 细小 四 凸 造成 的 ， 例 如 橘子 皮 的 皱纹 或 未 磨 
光 的 凹 痕 等 。 纹 理 映 射 技术 有 连续 法 和 离散 法 两 种 ， 连 续 法 把 纹理 定义 为 一 个 二 元 函数 ， 末 
数 的 定义 域 就 是 纹理 空间 。 离 散 法 把 纹理 函数 定义 在 一 个 二 维 数组 中 ， 代 表 纹 理 空间 中 行 间 
隔 和 列 间隔 固定 的 一 组 网 格 点 上 的 纹理 值 。 通 过 对 网 格 点 的 值 进行 插值 获得 网 格 点 之 间 的 其 
他 点 的 纹理 值 。 

当前 的 纹理 生成 方法 有 三 大 类 : 

(1) 无 纹理 生成 法 ”这 种 方法 没有 纹理 ,一 般 是 通过 光照 给 模型 外 表 涂 上 颜色 ， 优 点 
是 简单 快速 ， 缺 点 是 人 物 缺 乏 真 实感 。 由 于 没有 纹理 的 视觉 干扰 ， 通 常 在 准确 表现 模型 三 维 
几何 形状 时 会 采用 这 种 方法 。 

(2) 单 张 纹理 生成 法 ”在 人 脸 动 画 中 ， 只 使 用 一 张 中 性 表情 的 纹理 ， 在 动画 显示 过 程 
中 ， 纹 理 随 着 网 格 的 变形 而 做 相应 的 拉 伸 。 单 张 纹理 的 优点 是 纹理 控制 简单 ， 只 需要 把 纹理 
映射 到 网 格 上 ， 在 动画 中 随 着 网 格 的 变形 而 拉 伸 。 缺 点 是 不 能 表现 纹理 的 细微 变化 ， 人 脸面 
部 的 纹理 随 着 表情 的 改变 会 产生 细微 的 变化 ， 比 如 皮肤 宰 皱 等 ， 只 用 一 张 纹理 无 法 表现 这 些 
细微 的 变化 ， 在 真实 度 上 会 有 所 从 缺 。 根 据 纹理 的 获取 途径 不 同 ， 单 张 纹理 生成 法 又 可 以 分 
为 以 下 三 类 : 
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1) 照片 图 像 拼 接 法 : 最 常见 的 方法 是 用 一 张 正面 的 照片 和 一 张 侧面 的 照片 来 拼接 组 成 
一 张 纹理 ， 也 有 用 多 张 不 同 角度 照片 拼接 的 纹理 。 这 种 方法 的 关键 是 要 做 到 不 同 照片 上 同一 
特征 点 的 标定 要 准确 。 照 片 拼接 的 方法 简单 易 行 ， 生 成 的 纹理 在 正面 通常 都 会 有 很 好 的 效 
果 ， 主 要 缺点 是 不 同 照片 上 的 相同 特征 点 很 难 准确 对 应 ， 生 成 的 纹理 在 偏离 正面 角度 较 大 的 
情况 下 效果 不 很 理想 。 

2) 视频 图 像 拼接 法 : 通过 跟踪 视频 中 人 脸 的 特征 位 置 和 姿态 来 获取 不 同 角度 的 人 脸 纹 
理 ， 然 后 把 各 种 角度 的 纹理 融合 起 来 合成 一 张 完 整 的 纹理 。 该 方法 主要 适用 于 只 有 视频 的 条 
件 下 生成 纹理 的 情况 ， 产 生效 果 与 照片 图 像 拼 接 类 似 。 

3) 三 维 扫描 设备 法 : 用 三 维 扫描 仪 自动 扫描 拼接 生成 纹理 ,纹理 结果 准确 ,但 是 常 
会 有 一 些 空白 区 域 ， 需 要 用 插值 算法 进行 修补 。 三 维 扫描 的 方法 需要 模特 的 配合 ， 难 以 
推广 。 

(3) 变化 纹理 生成 法 ”为 了 表现 人 脸面 部 细微 特征 的 变化 ， 变 化 纹理 的 方法 在 动画 过 
程 中 并 不 局 限于 一 张 固定 的 纹理 ， 而 是 随 着 表情 的 变化 对 纹理 进行 相应 的 修改 。 变 化 纹理 生 
成 法 真实 感 强 ， 但 是 相对 于 单 张 纹理 生成 法 ， 实 现 起 来 比较 复杂 。 目 前 已 有 的 变化 纹理 生成 
法 有 : 

1) 动态 重 构 法 : Guenter 等 人 在 模特 脸 上 标 了 6 种 不 同 颜色 ， 共 128 个 点 ， 用 6 ARAH 
机 同时 采集 人 脸 表 情 。 然 后 用 一 个 颜色 分 类 器 来 识别 不 同 颜色 ， 并 获得 它们 的 位 置 ， 利 用 这 
些 点 在 不 同 视 角 的 坐标 ， 可 以 重 构 三 维 人 脸 网 格 。 为 了 获取 纹理 ， 他 们 首先 根据 颜色 分 类 器 
的 信息 ， 把 照片 上 的 彩色 点 去 掉 ， 并 用 正确 的 颜色 来 填充 ， 然 后 拼接 融合 6 张 照 片 生成 不 含 
标定 点 的 纹理 。 由 于 纹理 总 是 用 真实 的 表情 照片 生成 的 ， 而 不 是 靠 拉 伸 得 到 的 ， 因 此 可 获得 
生动 的 动画 效果 ,但 是 他 们 的 动画 只 适应 于 特定 人 模型 ， 且 制作 过 程 复 杂 ， 无 法 实时 产生 动 
Ilii] 

2) 纹理 拼接 法 : Pigbin 等 人 采用 5 架 相 机 采集 模特 的 各 种 基本 表情 ， 他 们 把 人 脸 分 成 
很 多 区 域 ， 然 后 用 各 个 区 域 的 纹理 进行 拼接 ， 从 而 产生 该 模特 更 多 丰富 的 表情 。 由 于 建立 了 
真实 的 表情 纹理 库 ， 所 以 生成 的 纹理 效果 很 逼真 ， 具 备 各 种 细微 特征 。 但 是 他 们 的 工作 只 适 
应 于 特定 人 模型 ， 而 且 制 作 过 程 复 杂 ， 通 用 性 不 强 。 

生成 颜色 纹理 的 一 般 方法 是 在 一 个 平面 区 域 〈 即 纹理 空间 ) 上 ， 预 先 定 义 纹理 图 案 ， 
然后 建立 物体 表面 的 点 与 纹理 空间 的 点 之 间 的 对 应 〈 即 映射 ) 。 当 物体 表面 的 可 见 点 确定 之 
后 ， 以 纹理 空间 的 对 应 点 的 值 乘 以 亮度 值 ， 就 可 以 把 纹理 图 案 附 到 物体 的 表面 上 。 也 可 以 用 
类 似 的 方法 给 物体 表面 产生 四 凸 不 平 的 包 纹 理 ， 不 过 这 时 纹理 值 作用 在 法 线 向 量 上 ， 而 不 是 
作用 于 颜色 亮度 上 。 纹 理 贴图 到 物体 表面 是 通过 纹理 空间 与 物体 空间 之 间 的 坐标 变换 来 实现 
的 。 二 维 纹理 映射 是 从 二 维 纹理 平面 到 三 维 景物 表面 的 一 个 映射 。 图 像 纹 理 映 射 确定 景物 表 
面 上 任 一 可 见 点 P 在 纹理 空间 中 的 对 应 位 置 (Qu, v), (Qu, v) 所 定义 的 纹理 值 或 颜色 值 描 
述 了 景物 表面 在 己 点 处 的 表面 颜色 纹理 属性 。 图 像 纹理 映射 技术 要 建立 纹理 空间 与 景物 空 
间 之 间 的 映射 m 和 景物 空间 与 屏幕 空间 之 间 的 映射 "7， 由 于 景物 空间 与 屏 间 空 间 之 间 的 映射 
7 是 取景 变换 ， 所 以 关键 是 确定 纹理 空间 与 景物 空间 之 间 的 映射 m。 纹 理 映 射 的 过 程 如 图 8- 
4 所 示 。 

映射 m 可 描述 为 (u,v) 2f(x, y, z), (u, v) 和 (x,，y，z) 分 别 为 纹理 空间 和 物体 空间 
中 的 点 。 图 像 纹 理 平面 区 域 一 般 经 过 归 一 化 处 理 ， 定 义 在 单位 正方 形 域 (0<us1, 0v 
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图 8-4 纹理 映射 过 程 示 意图 




















1) 上 ， 便 于 后 续 计 算 。 
由 于 参数 曲面 定义 了 一 个 二 维 参数 空间 到 三 维 参数 空间 的 映射 关系 ， 当 将 参数 空间 和 纹 
理 空 间 等 同 起 来 看 时 (两 者 之 间 关 系 由 一 仿 射 变换 确定 ) BUM m 等 价 于 参数 曲面 自身 定义 
的 道 映 射 。 对 于 一 般 三 角形 或 四 边 形 ， 空 间 点 坐标 与 参数 的 关系 为 仿 射 变 换 ， 即 
A DG 
Gun GooD da E (8-10) 
C F I 
指定 三 个 顶点 的 (wu, v) 值 ， 可 算出 系数 矩阵 中 各 系数 的 值 。 式 (8-10) 定义 了 纹理 
空间 与 多 边 形 平面 之 间 的 一 个 通用 仿 射 变换 。 对 复杂 的 高 次 参数 曲面 来 说 ， 其 逆 映 射 无 法 解 
析 表 达 ， 一 般 需 采用 数值 求解 技术 来 离散 求 得 。 对 简单 的 二 次 曲面 来 说 ， 其 纹理 映射 可 解析 
地 表达 出 来 。 


8.5 人 上 脸 动画 


计算 机 人 脸 动 画 就 是 以 人 脸 模型 的 几何 和 纹理 为 基础 ， 采 用 动画 技术 控制 脸 部 模型 的 整 
体 或 局 部 的 变形 ， 以 达到 模拟 真实 的 人 脸 运动 和 表情 转换 的 目的 。 为 了 实现 模型 控制 和 动画 
生成 ， 必 须 设计 一 个 计算 模型 ,把 人 脸 的 几何 表示 和 它 的 形变 联系 起 来 。 不 同 的 计算 模型 形 
成 了 不 同 的 人 脸 动 画 技术 。 
8.5.1 人 脸 动画 技术 

计算 机 人 脸 动 画 控制 方法 主要 有 以 下 几 种 : 关键 帧 插值 法 、 参 数 化 法 、 表 演 驱 动 法 、 基 




















于 肌肉 的 物理 法 等 。 这 些 方法 各 自 有 自己 的 优 缺 点 ， 并 没有 一 个 最 优 的 方法 。 下 面 介绍 一 些 
常用 的 方法 。 


1. 关键 帧 插值 法 

关键 帧 插值 法 是 最 简单 也 是 最 常用 的 脸 部 动画 控制 方法 。 它 首先 通过 三 维 数字 化 仪 法 、 
立体 图 像 摄 影 测绘 法 或 光学 扫描 仪 法 等 三 种 方法 之 一 得 到 一 个 离散 的 脸 部 形态 集合 。 这 些 脸 
部 数据 具有 相同 的 拓扑 结构 ， 能 够 在 每 个 脸 部 形态 上 相应 点 之 间 建 立 一 一 对 应 的 映射 关系 。 
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两 个 脸 部 形态 之 间 的 中 间 形 态 可 通过 插值 得 到 ， 如 图 8-5 所 示 。 关 键 帧 插值 法 由 于 其 简单 和 
直观 的 特性 而 被 广泛 使 用 。 但 是 由 于 关键 帧 插值 法 局 限于 所 能 得 到 的 脸 部 形态 ， 从 而 无 法 实 
现 大 量 丰富 的 脸 部 合成 表情 ， 同 时 还 不 能 实现 脸 部 表情 的 直接 控制 ， 这 促使 了 参数 化 法 的 提 
出 。 

















中 性 人 脸 插值 后 的 图 像 微笑 的 人 脸 
图 8-5 用 线性 插值 法 后 得 到 的 人 脸 图 像 
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2. 参数 化 法 

为 了 克服 关键 帧 插值 方法 的 缺点 和 局 限 性 ，Parke 在 参考 文献 [21] 中 提出 了 参数 化 法 。 
人 脸 参 数 模型 的 基本 思想 是 通过 参数 来 描述 不 同 的 人 脸 特 征 和 人 脸 表 情 变 化 ， 因 此 在 人 脸 参 
数 模型 中 ， 考 虑 了 两 种 参数 : 人 脸 模 型 构造 参数 和 人 脸 表 情 控 制 参数 。 人 脸 模 型 构造 参数 用 
来 描述 特定 人 脸 的 几何 特征 ， 包 括 脸形 的 整体 大 小 以 及 五 官 的 具体 大 小 和 形状 ， 用 于 产生 各 
种 各 样 的 个 性 化 人 脸形 状 。 人 上 脸 表情 控制 参数 描述 面部 器 官 的 运动 情况 ， 如 用 眼 、 眉 毛 的 拾 
起 、 下 巴 的 拱 起 等 动作 ， 用 于 产生 人 上 脸 的 各 种 表情 动画 。 通 过 确定 关键 参数 集 和 插值 其 他 的 
参数 可 以 产生 任意 的 脸 部 表情 ， 并 实现 脸 部 表情 之 间 的 变形 。 参 数 的 确定 不 仪 影响 模型 的 结 
构 和 大 小 ， 而 且 也 影响 表情 的 产生 。 人 上 脸 表 情 控 制 参 数 和 人 脸 模 型 构造 参数 的 分 离 使 表情 的 
产生 独立 于 脸 部 特征 。 与 关键 帧 插值 方法 相 比 ， 参 数 化 法 允许 对 脸 部 表情 的 直接 控制 ， 而 且 
它 可 以 实现 大 的 数据 压缩 比 ， 在 低 带宽 的 情况 下 ， 可 实现 实时 脸 部 动画 。 参 数 化 法 的 缺点 
是 ， 在 一 个 脸 部 表情 向 另 一 个 脸 部 表情 转化 时 ， 它 不 能 一 致 、 协 调 地 处 理 在 融合 影响 相同 顶 
点 的 表情 时 产生 的 参数 冲突 。 

3. 基于 肌肉 的 物理 法 

为 了 合成 真实 的 人 脸 动 画 ， 基 于 肌肉 的 方法 根据 人 脸 的 生理 结构 ， 从 生理 的 角度 对 人 脸 
的 面部 行为 进行 模拟 。 根 据 解 痢 学 的 理论 ， 人 脸 具 有 复杂 的 、 层 次 性 的 生理 结构 ， 由 头骨 、 
肌肉 层 、 履 盖 的 肌 膜 组 织 和 外 部 皮肤 层 组 成 。 头 骨 的 形状 决定 了 整个 人 脸 的 形状 。 头 骨 由 
14 块 主要 的 骨头 组 成 ， 其 中 下 显 骨 是 唯一 的 关节 ， 牙 齿 是 唯一 可 能 看 见 的 骨 结 构 。 人 脸 部 
表情 的 产生 和 皮肤 的 变形 主要 是 由 脸 部 肌肉 运动 所 引起 的 。 使 人 脸 具 有 特定 表情 所 涉及 的 主 
要 肌肉 有 口 轮 政 肌 、 曙 肌 、 额 肌 、 眼 轮 政 肌 、 皱 眉 肌 等 。 基 于 肌肉 的 物理 方法 根据 对 肌肉 本 
吴 的 生理 构成 和 特性 ， 以 及 肌肉 运动 与 产生 的 脸 部 表情 和 皮肤 变形 关系 的 分 析 ， 通 过 动力 学 
模型 模拟 肌肉 的 运动 来 生成 真实 的 人 脸 动 画 。 

4. 质点 -弹簧 系统 法 

基于 目标 对 象 的 物理 性 质 ， 质 点 - 弹 往 系 统 已 被 广泛 地 用 于 模拟 可 变形 物体 。 它 用 由 质 
点 集 组 成 的 网 格 系统 来 模拟 对 象 ， 并 通过 弹 得 来 连接 质点 。 弹 算 通 常 是 线性 的 ， 但 是 非 线 性 
的 弹簧 也 常 被 使 用 以 模拟 对 象 的 非 弹 性 的 行为 。 质 点 的 运动 服从 于 牛顿 第 二 定律 。 整 个 网 格 
系统 的 运动 是 通过 结合 所 有 质点 的 运动 来 实现 的 。 在 计算 机 人 脸 动 画 中 ， 质 点 -弹簧 系统 已 
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被 广泛 地 用 于 模拟 人 脸 部 的 表情 变化 。Terzopoulos 和 Water ^ 将 动态 质点 - 弹 得 系统 用 于 人 
脸 的 动画 。 根 据 人 脸 组 织 的 生理 解剖 结构 ， 他 们 建立 了 一 个 三 层 质点 网 格 结构 的 分 层 网 格 肌 
肉 模 型 ， 如 图 8-6 所 示 。 三 个 可 变形 网 格 层 对 应 于 皮肤 、 脂 肪 层 和 与 骨骼 连接 的 肌肉 。 肌 肉 














收缩 力 通过 网 格 层 扩展 以 产生 脸 部 表情 动画 。 

5. 有 限 元 法 

根据 物体 的 几何 结构 、 物 理性 质 和 应 用 要 求 
的 不 同 ， 有 限 元 法 (FEM) 将 一 个 目标 变形 对 象 
分 解 成 由 几 个 有 限 种 元 素 组 成 的 集合 ， 以 连续 的 
方式 模拟 每 个 元 素 的 变形 。 每 个 元 素 由 一 个 插值 
函数 来 定义 元 素 内 的 数值 变化 。 各 元 素 之 间 通 过 
离散 的 节点 连接 ， 通 过 对 节点 和 元 素 边界 的 限 
制 ， 实 现 元 素 间 的 连续 性 。 针 对 不 同 的 应 用 要 求 
和 不 同 的 对 象形 状 ， 可 定义 不 同 的 元 素 ， 这 些 元 
素 是 通过 它们 的 节点 数量 和 几何 形状 来 定义 的 。 

6. 伪 肌 肉 变形 法 

基于 肌肉 的 物理 方法 为 实现 某 个 特定 的 人 脸 
结构 和 动画 则 需要 大 量 的 参数 调整 和 精确 的 建 
模 。 伪 肌肉 变形 法 名 略 脸 部 复杂 的 生理 结构 ， 通 
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8-6 “分 层 网 格 肌肉 模型 


外 表皮 节点 一 1 ，2,， 3 ” 肌 膜 节点 一 4, 5, 6 


骨骼 节点 一 7，8, 9 





注 : 虚线 和 直线 均 表 明了 节点 之 间 的 弹性 网 格 连续 。 





过 变形 脸 部 网 格 来 模拟 脸 部 肌肉 变形 实现 人 脸 动 画 ， 可 以 作为 基于 肌肉 的 物理 方法 的 蔡 代 方 

















法 。 这 里 的 肌肉 变形 可 以 是 全 局 变形 ， 也 可 是 发 生 在 脸 部 网 格 的 一 个 相对 小 的 区 域内 的 局 部 
变形 。 变 形 的 方法 有 基于 样 条 实现 的 伪 肌肉 变形 法 和 基于 自 


日 变形 的 伪 肌 肉 变形 法 等 。 








(1) 基于 自由 变形 的 伪 肌 肉 变形 法 — 38 
过 控制 分 布 在 三 维 立 体 机 格 上 的 控制 点 来 变 
形体 对 象 ， 即 把 一 个 可 变形 体 放 在 一 个 可 变 
形 的 包含 三 维 控制 点 栅 格 的 控制 框架 内 。 当 

















控制 框架 被 任意 地 模压、 弯曲、 扭曲 时 ， 控 
制 框架 内 部 的 变形 体 也 相应 地 变形 ， 如 图 8- 














图 8-7 











于 自由 变形 的 伪 肌 肉 变形 











7 所 示 。 自 由 变形 既 可 以 实现 局 部 变形 ， 也 可 实现 整体 变形 ， 同 时 还 可 以 控制 变形 前 后 物体 
体积 的 变化 程度 。 基 于 自由 变形 的 伪 肌 肉 变形 法 的 缺点 是 计算 量 大 ， 网 格 的 调整 非常 麻烦 ， 
为 获得 合适 的 物理 形状 需要 仔细 地 选择 和 移动 许多 控制 点 。 其 主要 的 改进 方法 有 直接 控制 的 
自由 变形 造型 技术 、 有 理 自 由 变形 技术 、 基 于 NURBS 的 自由 变形 技术 等 。 

(2) 基于 样 条 实现 的 伪 肌 肉 变形 法 ”一 个 理想 的 脸 部 模型 应 该 有 一 个 支持 平滑 和 灵活 
变形 的 表面 。 样 条 肌肉 模型 为 此 提供 了 一 个 很 好 的 解决 办 法 。 样 条 通常 有 C2 的 连续 性 ， 因 
此 一 个 小 面 片 可 确保 是 平滑 的 且 人 允许 局 部 变形 。 进 一 步 ， 仿 射 变 换 能 够 通过 一 小 部 分 控制 点 
的 变形 来 定义 ， 而 无 须 通 过 整个 网 格 点 来 定义 ， 这 就 降低 了 计算 的 复杂 性 。 一 个 分 层 的 样 条 
模型 减少 了 一 些 不 必要 的 控制 点 的 个 数 。Wang 等 显示 了 一 个 将 分 层 样 条 模型 与 基于 区 域 表 
面 变形 的 模拟 肌肉 模型 相 结合 的 系统 。 之 所 以 使 用 B 样 条 是 因 其 提供 了 平滑 性 和 弹性 ， 
而 这 些 特点 是 传统 的 多 边 形 模型 很 难 达到 的 。 然 而 ， 当 要 求 一 个 变形 比 Patch 解决 方案 更 加 
完善 时 ， 对 复杂 表面 使 用 原始 的 B 样 条 的 缺点 显而易见 。 为 了 产生 更 好 的 Patch 方法 ， 表 面 
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的 一 整 行 或 一 整 列 需要 被 复 分 。 这 样 ， 可 以 加 入 更 多 的 细节 和 更 多 的 控制 点 。 对 比 而 言 ， 分 
层 样 条 提供 了 对 B 样 条 表面 的 区 域 的 完善 ， 而 只 在 一 个 特定 的 区 域内 加 入 新 的 patch, ， 如 图 
8-8 所 示 。 分 层 B 样 条 是 一 种 经 济 且 简 便 的 表示 样 条 平面 且 获 得 高 演 染 速度 的 方法 。 带 有 分 
层 样 条 表面 的 肌肉 可 以 产生 带 有 裤 皱 的 皮肤 表面 以 及 各 种 面部 表情 。 
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o o o o 
o o o o 
o o o o 
o B o o o 控制 点 
新 产生 的 控制 点 

B ° T 了 提取 的 面 上 
o o o o eo 0 o o o o o o o o L4 

a) b) 


图 8-8 分 层 B 样 条 方法 
a) 显示 了 一 个 具有 16 个 路 径 、49 个 控制 点 的 b) 显示 了 中 间 定 义 的 4 条 路 径 






































7. 表演 驱动 法 

表演 驱动 (Performance to Driven) 法 又 称 作 表 情 映 射 (Expression Mapping) 法 ， 也 是 一 
种 流行 的 脸 部 动画 方法 。 此 方法 捕捉 在 各 种 面部 表情 下 真实 人 脸 部 的 特征 来 驱动 脸 部 模型 ， 
产生 真实 的 脸 部 表情 。 常 用 的 方法 是 在 一 个 演员 的 脸 上 设置 许多 特征 点 ， 在 演员 表演 各 种 脸 
部 表情 时 ， 捕 捉 这 些 特 征 点 的 运动 向 量 ， 然 后 使 用 得 到 的 特征 点 的 运动 向 量 来 驱动 脸 部 模型 
的 相应 特征 点 产生 脸 部 表情 。 它 提供 了 一 种 直观 和 有 效 的 方式 直接 控制 脸 部 表情 的 产生 。 
Snake 和 Optical FlowTraking ( 光 流 跟踪 ) 技术 常 被 用 来 获取 脸 部 的 特征 变化 。 这 种 方法 可 以 
和 MPEG4 标准 相 结合 产生 脸 部 动画 ， 并 能 提高 数据 的 压缩 率 。 这 种 方法 的 缺点 是 它 仅仅 捕 
捉 了 脸 部 特征 的 几何 变化 ， 而 忽视 了 光照 的 变化 ， 因 此 可 能 引入 不 真实 的 效果 。 而 且 此 方法 
不 能 产生 类 似 皱纹 等 脸 部 表情 细节 。 

8. Morphing (变形 ) 法 

Morphing 是 指 在 两 个 指定 图 像 或 两 个 三 维 模型 之 间 进 行 的 变形 转换 。 首 先 ， 在 两 个 指定 
图 像 或 两 个 三 维 模型 上 确定 一 套 特 征 点 集 ; 然后 ， 用 映射 函数 确定 两 个 目标 对 象 之 间 特 征 点 
集 的 相应 特征 点 的 点 对 点 的 对 应 关系 ; 接着 用 warpping 函数 确定 中 间 图 像 的 特征 点 的 二 维 
和 三 维 位 置 或 纹理 空间 的 坐标 值 ; 最 后 ， 使 用 离散 点 插值 函数 产生 其 他 非特 征 点 的 顶点 的 二 
维和 三 维 位 置 或 纹理 空间 的 坐标 值 。Morphing 方法 有 二 维 图 像 Morphing, Wi Morphing, = 
HE Morphing。 从 图 像 真实 性 出 发 ， 二 维 图 像 Morphing 能 够 产生 真实 的 脸 部 表情 图 像 。 但 是 
二 维 图 像 Morphing 的 缺点 是 ， 它 要 求 确定 特征 点 之 间 的 点 对 点 的 对 应 关系 ; 其 次 ， 二 维 图 
像 Morphing 没有 考虑 对 视点 和 对 象 的 姿势 变化 的 处 理 ， 真 实 的 头 部 运动 无 法 实现 ， 当 视点 
和 姿势 发 生变 化 时 ， 会 产生 不 真实 的 脸 部 表情 图 像 。 为 了 克服 二 维 Morphing 的 限制 ，Pighin 
等 人 在 参考 文献 [20] 中 ， 将 二 维 Morphing 和 几何 模型 的 三 维 变形 相 结合 实现 三 维 Morphing。 
他 们 用 三 维 几何 插值 来 实现 脸 部 表情 之 间 的 变化 ， 用 二 维 Morphing 实现 对 应 的 纹理 图 像 的 


变化 。 
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8.5.2 人 脸 动 画 驱动 技术 


人 脸 合 成 系统 都 必须 模拟 人 脸 表 情 中 很 多 细节 和 复杂 运动 。 对 每 一 个 运动 ， 虽然 可 以 进 
行 手 工 标 注 ， 但 是 一 般 需 要 很 长 的 时 间 ， 而 且 只 有 熟练 的 动画 师 才 能 很 好 地 完成 该 项 工作 。 
为 了 解决 这 个 问题 ， 人 们 研究 了 一 些 可 以 自动 生成 人 脸 动 画 的 方法 ， 主 要 有 视频 驱动 、 语 音 
了 驱动、 跟踪 设备 驱动 和 文本 驱动 等 方法 。 

1. 视频 驱动 法 

基于 视频 的 方法 跟踪 人 脸 的 运动 ， 并 将 人 脸 的 运动 信息 转化 为 控制 人 脸 模型 的 运动 参 
数 。 这 种 方法 目前 的 难点 在 于 提取 并 跟踪 人 脸 特 征 点 的 运动 。 为 此 ， 常 在 被 跟踪 人 脸 上 加 入 
特征 标注 点 (如 反光 点 )。 如 果 每 时 每 刻 所 有 人 脸 特 征 或 反光 点 都 可 以 被 检测 出 来 ， 那么 提 
取出 来 的 数据 可 直接 与 人 脸 模 型 参数 建立 一 种 映射 关系 。 此 时 ， 这 种 方法 可 以 得 到 很 好 的 结 
果 。 基 于 视频 驱动 的 合成 适合 各 现 个 人 化 的 表情 ， 当 需要 精确 的 层 动 控制 时 ， 这 项 技术 很 难 
自 适 应 完成 和 语音 同步 的 层 形 计算 。 

2. 语音 驱动 法 

目前 的 语音 驱动 法 可 分 为 两 类 : 通过 语音 识别 法 和 不 通过 语音 识别 法 。 第 一 种 方法 是 通 
过 将 语音 分 割 成 语言 单元 ， 如 音素 (Phoneme) 、 视 觉 基 元 (Viseme) 以 及 更 进一步 的 音节 
(Syllable) ， 随 后 将 这 些 语言 单元 直接 映射 到 嘴 层 姿势 后 用 拼接 法 合成 。 这 种 方法 非常 易于 
直接 实现 ,但 缺点 是 忽视 了 动态 因素 和 同步 问题 ， 潜 在 的 语音 段落 与 肌肉 模型 运动 的 相互 作 
用 及 影响 很 难处 理 。 到 现在 为 止 ， 几 乎 所 有 在 同步 问题 上 的 努力 集中 在 局 发 式 规则 以 及 Ad 
Hoc 平滑 方法 上 。 当 用 离散 的 语音 基 元 或 图 像 基 元 表示 音 视 频 的 基本 单元 时 ， 将 会 丢失 很 多 
重要 的 信息 。 事 实 上 ， 语 音 基 元 的 设计 仅 满足 区 别 发 音 高 低 以 及 可 以 传递 语言 内 容 的 需要 。 
语音 基 元 表示 对 于 识别 而 言 非常 有 将， 但 对 于 合成 来 说 却 不 是 最 好 的 ， 这 主要 由 于 它们 很 难 
预测 声音 韵律 和 人 脸 表 情 之 间 、 声 音 能 量 与 姿势 放大 之 间 ， 以 及 声音 段落 与 唇 动 同步 之 间 的 
关系 。 第 二 种 方法 是 绕 过 语音 基 元 这 种 形式 ， 找 到 语音 信和 号 与 控制 参数 之 间 的 映射 关系 ， 然 
后 直接 驱动 嘴 展 和 运动。 神经 网 络 、 相 关 控 制 及 线性 预测 函数 被 广泛 用 于 生成 展 形 和 人 脸 表 情 
中 。 

3. 运动 跟踪 设备 驱动 法 

运动 跟踪 设备 通常 需要 模特 穿 上 特制 的 衣 帽 ， 上 面 有 一 些 标记 ,或 者 直接 在 人 体 表面 贴 
上 特制 的 标记 (通常 呈 小 球状 )。 仪 器 的 多 个 摄像 机 能 够 自动 跟踪 这 些 标记 ， 并 自动 计算 出 
标记 的 运动 轨迹 。 目 前 的 运动 跟踪 设备 很 多 ， 如 Vicon, Motion Analysis, Qualisys, Vz3000 
等 ， 它 们 都 可 以 实现 通过 在 脸 上 粘贴 标记 点 实现 获取 三 维 人 脸 运 动 数据 的 工作 。 

4. 文本 驱动 法 

文本 驱动 有 两 种 方式 。 第 一 种 方式 是 输入 文本 首先 被 分 析 转 为 音素 表示 ， 音 素 的 一 些 信 
息 以 及 它们 的 时 长 可 以 从 文本 中 自动 生成 出 来 。 对 共振 峰 以 及 其 他 一 些 语音 参数 (频率 、 
基 音 、 基 音 范围 等 ) 也 可 以 由 计算 得 到 。 文 本 驱动 人 脸 语 音 合成 适合 参数 化 的 人 脸 模 型 。 
定义 人 脸 模 型 的 参数 也 可 以 被 加 入 到 用 于 语音 合成 的 参数 中 ， 如 嘴唇 形状 、 人 脸 表 情 、 下 颌 
旋转 等 。 作 为 一 种 新 的 方法 ,语音 合成 系统 可 以 扩展 到 将 人 脸 参 数 包含 在 语音 输出 参数 中 。 
第 二 种 方式 是 直接 在 文本 与 动画 参数 之 间 建 立 映射 关系 。 文 本 驱动 人 脸 语 音 系统 可 以 通过 对 
文本 插入 一 些 标记 (如 语音 韵律 、 语 气 、 重 音 ) 优化 输出 的 结果 。 这 样 合成 语音 会 更 自然 ， 
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同时 这 些 参数 可 以 用 于 复杂 的 人 脸 动 画 。 例 如 ， 重 音 可 以 与 眉毛 上 挑 以 及 点 头等 动作 同步 合 
成 。 


8.6 MPEG-4 人 脸 动 画 原 理 








MPEC-4《〈 活 动 图 像 压 缩 标 准 4) 设计 之 初 是 为 了 在 电话 线 上 传输 视频 和 音频 数据 ， 是 
一 个 超 低 比特 率 运 动 图像 和 语音 的 压缩 标准 ， 但 是 随 着 研究 工作 的 深入 ， 它 的 作用 已 经 远 远 
超出 了 最 初 的 设计 思想 。MPEG-4 为 多 媒体 数据 压缩 提供 了 一 个 广阔 的 平台 ， 它 更 多 定义 的 
是 一 种 格式 和 框架 ， 而 不 是 具体 的 算法 。MPEG-4 可 以 将 各 种 各 样 的 多 媒体 技术 充分 用 于 编 
码 中 ， 除 包括 压缩 本 里 的 一 些 工具 、 算 法 外 ,还 包括 图 像 分 析 和 合成 、 计 算 机 视觉 、 计 算 
机 图 形 、 虚 拟 现实 和 语音 合成 等 技术 。MPEG-4 中 的 三 维 人 脸 对 象 是 用 三 维 线 框 模型 来 描 
述 人 脸 的 形状 、 表 情 和 口 形 变化 等 各 种 面部 特征 ， 采 用 参数 编码 的 方法 来 实现 极 低 码 率 
的 编码 。 

MPEG4 中 ,为 了 统一 脸 部 运动 的 起 始 状态 ， 在 进行 人 脸 动 画 之 前 ， 先 要 从 闭 嘴 、 张 
眼 、 视 线 、 头 朝向 等 方面 将 人 脸 模 型 调整 为 一 个 “中 性 人 脸 ” 。MPEC-4 中 ， 对 “中 性 人 脸 ” 
做 出 了 较为 明确 的 定义 : 

头 部 轴线 平行 于 坐标 轴 ; 

视线 方向 与 z 轴 方向 一 致 ; 

所 有 脸 部 肌肉 放松 ; 

眼 瞪 与 虹膜 相 切 ; 

瞳孔 直径 是 虹膜 直径 的 1/3; 

双 层 接触 ， 层 线 水 平 ， 并 与 嘴角 在 同一 水 平 线 上 ; 

嘴 闭 合 ， 上 下 齿 扣 合 ; 

酉 头 水 平平 坦 ， 并 且 舌 尖 与 上 下 齿 缘 相 触 。 


8.6.1 FDP、FAP 与 FAPU 的 定义 


























MPEG-4 中 的 人 脸 动 画 参数 包括 用 于 描述 特定 脸形 的 人 脸 定 义 参数 (FDP) 和 描述 脸 部 
活动 的 人 脸 动 画 参数 (FAP) 。 

FDP 是 一 个 静态 参数 ， 用 来 定义 一 个 特定 人 脸 模 型 ， 以 便 让 解码 器 得 到 特殊 的 人 脸 模 
型 。FDP 也 可 以 用 来 下 载 一 个 人 脸 模 型 ， 以 及 定义 如 何 根据 后 续 的 一 系列 FAP， 产 生活 动 图 
像 的 一 套 规则 。 因 此 ，FDP 出 现在 一 个 场景 序列 的 开头 ， 而 且 一 般 只 出 现 一 次 ， 随 后 是 压缩 
的 FAP。 知 编码 器 没有 提供 模型 下 载 ， 也 可 以 用 FAP 定义 的 特征 点 坐标 来 调整 解码 端 已 有 
的 标准 人 脸 模 型 ， 使 之 成 为 特定 人 脸 模 型 。 也 就 是 说 ，FDP 可 以 携带 模型 信息 或 模型 调 
整 信息 ， 寿 解码 器 没有 收 到 FDP 信息 ， 也 可 以 根据 收 到 的 FAP 和 本 地 的 人 脸 模 型 解释 
FDP， 这 样 可 以 在 广播 和 视频 会 议 中 只 使 用 最 小 的 操作 。 在 MPEG4 标准 中 ,定义 了 FDP 
的 84 个 人 脸 特 征 点 〈 见 图 8-9) ， 对 于 其 他 网 格 、 纹 理 、 人 脸 动画 定义 表 等 内 容 没 有 具体 
的 限定 。 

与 静态 的 FDP 相对 应 的 是 动态 的 FAP, FAP 是 基于 人 脸 细微 运动 的 研究 而 得 出 的 ， 和 
脸 部 肌肉 运动 密切 相关 。FAP 描述 了 一 个 完整 的 脸 部 基本 运动 的 集合 ， 所 以 用 FAP 可 以 对 
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图 8-9 FDP 特征 点 


大 部 分 的 自然 人 脸 进行 表示 ， 当 然 也 可 以 创作 出 夸张 的 常人 不 可 能 做 出 的 脸 部 表情 。 在 
MPEG- 中 ，FAP 共有 68 项 ， 被 分 成 10 组 ， 包 括 口 形 和 表情 、 下 巴 、 眼 部 、 眉 毛 、 脸 颊 、 
舌 、 头 部 转动 、 嘴 唇 、 自 子 、 耳 杂 等 ， 其 中 第 一 组 是 口 形 参数 和 表情 参数 ， 这 两 个 高 级 参数 
与 其 他 参数 略 有 不 同 。 口 形 参 数 是 定义 了 与 相应 的 发 声 相符 合 的 嘴 层 形状， 是 与 音素 相对 应 
的 视频 参数 。 表 情 参 数 是 从 情绪 、 情 感 等 心理 角度 来 描述 脸 部 视 像 的， 其 中 每 一 个 表情 参数 
就 对 应 了 一 组 表情 控制 特征 点 的 移动 。 除 了 这 两 个 高 级 FAP 
之 外 ，MPEG-4 标准 还 定义 了 其 他 9 组 ， 共 66 个 参数 。 这 些 参 
数 描述 了 脸 部 表情 的 最 基本 的 运动 特征 。 两 个 高 级 PAP 的 作 
用 是 更 方便 地 表现 一 般 的 层 动 和 表情 ， 当 然 这 些 层 动 和 表情 也 
可 以 用 普通 FAP 来 实现 ,但 是 对 于 复杂 的 层 动 和 表情 ， 则 只 
能 用 普通 的 FAP 来 实现 。 

FAP 的 值 是 以 FAPU (Facial Animation Parameter Unit, A 
脸 动 画 参 数 单元 ) 为 单位 的 。FAPU 是 人 脸 上 某 段 特征 长 度 在 
1024 尺度 上 的 量化 值 ， 如 图 8-10 所 示 。 以 FAPU 为 单位 的 目 
的 是 使 同样 的 FAP 应 用 到 不 同 的 模型 上 ， 产 生 同样 的 层 动 和 
表情 ， 而 不 会 因为 模型 的 不 同 而 使 唇 动 和 表情 走样 。 这 就 使 E AMARE 
FAP 具有 了 通用 性 。FAP 与 模型 无 关 ， 而 FAPU 则 是 与 模型 相关 的 。 


8.6.2 FAP 驱动 人 脸 动 画 的 基本 原理 


根据 FAP 控制 人 脸 运 动 类 型 的 不 同 ，66 个 普通 FAP 分 为 两 类 : 第 一 类 控制 人 脸 茶 些 区 
域 的 旋转 、 平 移 和 缩放 等 的 简单 变换 ， 该 区 域 点 的 运动 具有 简单 的 统一 规则 ， 比 如 转动 眼 
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珠 ; 第 二 类 控制 人 脸 某 些 区 域 的 非 简单 变换 ， 区 域 点 的 运动 没有 简单 的 统一 规则 ， 比 如 皱 
眉 、 上 是 上 腿 、 张 嘴 等 。 用 户 在 得 到 一 组 PAP 的 值 后 ， 需 要 用 到 FDP 域 中 的 人 脸 动 画 定义 表 来 
控制 人 脸 网 格 的 变形 ， 而 得 到 相应 的 表情 。 

对 于 第 一 类 FAP， 人 脸 动 画 定义 表 中 定义 了 FAP 的 运动 类 型 ， 包括 旋转 、 缩 放 和 平移 
三 种 。 如 果 运 动 类 型 是 旋转 的 话 ， 还 需要 定义 旋转 轴 和 旋转 因子 ， 如 果 运 动 类 型 是 缩放 和 平 
移 的 话 ， 只 需要 定义 三 维 比 例 因 子 就 可 以 了 。 

对 于 第 二 类 FAP， 人 脸 动 画 定义 表 中 定义 了 三 部 分 内 容 : DFAP 的 值 域 分 为 哪 几 段 ; © 
FAP 控制 哪些 网 格 点 ; (BFAP 控制 的 网 格 点 在 每 段 中 的 运动 因子 是 多 少 。 对 于 每 一 个 FAP， 
需要 在 人 脸 动 画 定义 表 中 查找 出 这 三 部 分 内 容 ， 然 后 根据 MPEG-4 中 提供 的 算法 ， 计 算出 由 
该 FAP 控制 的 所 有 网 格 点 的 位 移 。 对 于 一 组 FAP， 每 个 FAP 都 计算 出 影响 网 格 点 位 移 的 大 
小 ， 将 这 些 位 移 著 加 起 来 就 可 以 得 到 一 个 生动 的 人 脸 表 情 。 

根据 给 定 的 FAP 值 ， 对 于 某 一 特定 的 三 维 人 脸 网 格 ， 实现 FAP 值 指 定 的 人 脸 表 情 ， 是 
基于 MPEG4 的 三 维 人 脸 实 现 过 程 中 需要 考虑 的 关键 问题 。 

第 一 类 FAP 比较 简单 ， 用 来 度量 的 FAPU 也 只 有 AU。 举 例 来 说 ， 对 于 FAP23 (水 平 旋 
转 左 眼珠 ) ， 已 知 AU =10 ， 定 义 旋 转轴 为 (0, -1, 0), WEAF 0-1, WR FAP23 的 
大 小 为 10000， 那 么 左 眼珠 逆 时 针 旋 转 的 角度 w = 10 7 x 10000 x 1rad = 0. lrad。 

第 二 类 FAP 计算 网 格 点 坐标 则 相对 比较 复杂 ， 相 应 地 ，AU 也 有 IRISD, ES, ENS, 
MNS, MW 五 个 。 这 一 类 FAP 控制 区 域 点 的 形变 ， 用 若干 段 线性 形变 来 代替 。 在 同一 段 中 ， 
点 的 位 移 是 在 固定 方向 匀速 变化 的 。 例 如 ，FAP19 控制 左 眼 上 眼皮 的 运动 。 皮 眼 时 ， 有 眼皮 
实际 上 是 在 做 弧 线 运 动 ， 可 以 把 它 近似 为 两 段 直线 运动 ， 如 图 8-11 所 示 。 控 制 区 域内 的 所 
有 点 在 每 一 段 都 分 别 有 一 个 三 维 的 运动 因子 ， 描 述 该 点 在 本 段 中 在 三 个 坐标 轴 方 向 上 的 运动 















































Z| 8-11 左 眼 上 眼皮 运动 的 两 个 阶段 











对 于 第 二 类 FAP, MPEGA 给 出 了 一 个 计算 该 FAP 控制 区 域内 点 的 位 移 的 算法 。 该 算 
法 如 下 : 

假设 P, 是 FAP 控制 区 内 m 点 在 中 性 表情 (FAP =0) 下 的 空间 坐标 ，P; 是 m 点 根据 
FAP 值 改变 位 置 后 的 空间 坐标 ，D;, ,是 m 点 在 第 段 的 三 维 运动 因子 ,那么 可 以 按 下 面 的 步 
又 计算 PRI. 
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1) 设 FAP 值 域 共 分 为 max +1 B, 分 别 为 Hh, Als Ch, b]. Ub, bl]. o. Uw 
Lal, FEAR Ip = - , Ines too W FAP EE [5,54] BO [1,7] B Oss, 
k<max, WR FAP 或 0 正好 在 边界 点 上 ， 那 么 可 以 任 选 边界 点 前 后 的 区 域 作 为 FAP 或 0 所 
在 的 段 。 

2) WRI > 天， 那么 可 以 用 下 式 计 算 P; 的 值 : 

Pi, =FAPU x [ (a -0) x Diy 十 Gio — Ln) X Daora tot (I, -Li) x 
Dj. + (FAP- L) x D,;] + P, (8-11) 
3) 如 果 7<k， 那 么 可 以 用 下 式 计算 已, 的 值 
P! =FAPU x [ (FAP 2 La) xD. + (La = de) xD 
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Doky FCO) xd pP. (8-12) 
4) WRJ = k, 那么 可 以 用 下 式 计算 P; 的 值 : 
P', = FAPU x FAP x D, + P, (8-13) 
5) WR FAP 只 分 了 1 段 ， 也 就 是 说 点 是 严格 线性 运动 的 ， 那 么 也 可 以 用 式 (8-13) 来 
计算 已 ,的 值 。 
下 面 举 一 个 具体 实例 。 假 设 某 FAP 的 运动 分 了 三 段 ， 分 别 为 : [-«%, 0], [0, 500], 





[500, + o ]， 受 该 FAP 控制 的 点 m 在 三 段 中 的 运动 因子 分 别 为 (1 0 0), 
(0.9 0 0), (L5 0 4), m 点 在 中 性 表情 下 的 坐标 为 已 ,， 如 果 给 出 FAP 的 值 为 600, 
对 应 的 FAPU 是 0.1。 由 于 FAP 的 值 在 [500, +] 区 间 ， 即 第 2 Ec, 而 0 在 [0, 500] 
区 间 ， 即 第 1 段 ， 所 以 应 该 用 式 (8-12) 计算 ， 那么 m 点 新 的 坐标 就 应 该 是 

P'20.1x[(500-0) x(0.9 0 0)7+(600-500) x(1.5 0 4)T] +P, 

= (60 0 40)T +P, 

可 以 看 到 ， 这 个 算法 把 复杂 的 脸 部 肌肉 运动 近似 成 分 段 的 线性 运动 。 要 求解 未 知 数 PY, , 
只 需要 解 一 个 一 元 一 次 线性 方程 ， 求 解 速度 非常 快 ， 完 全 可 以 满足 实时 运算 的 要 求 。 男 外 ， 
线性 运动 分 段 的 多 少 决定 着 与 实际 运动 的 近似 程度 ， 分 段 多 固然 可 以 提高 运动 的 逼真 度 ， 但 
是 要 计算 分 段 点 ， 以 及 每 段 各 点 的 运动 因子 也 涉及 很 多 工作 ， 所 以 可 以 根据 实际 应 用 的 需要 
来 确定 分 段 的 多 少 。 
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BIR 人 脸 识 别 系统 


9.1 概述 


人 脸 识 别 理论 的 研究 发 展 大 致 可 分 为 三 个 阶段 : 

第 一 阶段 ， 以 Bertillon, Allen 和 Parke 为 代表 ， 主 要 研究 人 脸 识别 所 需要 的 面部 特征 。 
在 Bertillon 的 系统 中 ， 用 一 个 简单 的 语句 与 数据 库 中 某 一 张 脸 相 联系 ， 同 时 与 指纹 分 析 相 结 
合 ， 提 供 了 一 个 较 强 的 识别 系统 。 为 了 提高 脸 部 识别 率 ，Allen 为 竺 识别 脸 设计 了 一 种 有 效 
和 逼真 的 摹 写 ，Parke 则 用 计算 机 实现 了 这 一 想法 ， 并 产生 了 较 高 质量 的 人 脸 灰 度 图 模型 。 
这 一 阶段 工作 的 特点 是 识别 过 程 全 部 依赖 于 操作 人 员 ， 显 然 这 不 是 一 种 可 以 完成 自动 识别 的 
系统 。 

第 二 阶段 ， 是 人 机 交互 式 识 别 阶 段 。 代 表 性 工作 有 : Goldstion, Harmon 和 Lesk 用 几何 
特征 参数 来 表示 人 脸 正 面 图 像 。 他 们 采用 21 维特 征 向 量 表示 人 脸面 部 特征 ， 并 设计 了 基于 
这 一 特征 表示 法 的 识别 系统 。Kaya 和 Kobayashi 则 采用 了 统计 识别 方法 ， 用 欧 氏 距离 来 表征 
人 脸 特 征 ， 如 嘴 导 与 蜡 之 间 的 距离 、 嘴 层 的 高 度 等 。 更 进一步 地 ，T. Kanad 设计 了 一 个 高 速 
且 有 一 定 知识 导 引 的 半自动 回溯 识别 系统 ， 创 造 性 地 运用 积分 投影 法 ， 从 单 幅 图 像 上 计算 出 
一 组 脸 部 特征 参数 ， 再 利用 模式 分 类 技术 与 标准 人 脸 相 匹配 。Kanad 的 系统 实现 了 快速 、 实 
时 的 处 理 ， 是 一 个 很 大 的 进步 。 相 比 之 下 ，Baron 所 做 的 工作 较 少 为 人 所 知 ， 他 先 将 图 像 灰 
度 归 一 ， 再 用 四 个 掩 模 〈 眼 、 鼻 、 嘴 及 眉毛 以 下 的 整个 脸 部 ) 表示 人 脸 ， 然 后 分 别 计算 四 
个 手 模 与 数据 库 中 每 幅 标准 图 像 的 相应 掩 模 之 间 的 互相 关系 数 ， 以 此 作为 判别 依据 。 

总 的 来 说 ， 这 两 个 阶段 主要 是 在 20 世纪 60 ~ 90 年 代 ， 这 段 时 间 的 人 脸 识 别 一 般 都 需要 
人 的 某 些 先 验 知识 ， 无 法 摆脱 人 的 干预 。 早 期 的 人 脸 识别 方法 有 两 大 特点 : 

1) 大 多 数 识别 方法 是 基于 部 件 的 ， 它 们 利用 人 脸 的 几何 特征 进行 识别 ， 提 取 的 信息 是 
人 脸 主 要 器 官 特征 信息 及 其 之 间 的 几何 关系 。 这 类 方法 比较 简单 ， 但 是 很 容易 丢失 人 脸 的 有 
用 信息 ， 从 而 在 视角 、 表 情 等 变化 的 情况 下 ， 识 别 能 力 差 。 鉴 于 这 种 情况 ， 后 来 出 现 了 性 能 
较 优 的 模板 匹配 方法 ， 即 根据 图 像 库 中 的 人 脸 模 板 与 待 识别 人 脸 模 板 在 灰 度 上 的 相似 程度 
来 实现 人 脸 识 别 ， 这 类 方法 在 一 定时 期 内 占据 主流 。 

2) 人 脸 识别 研究 主要 是 在 较 强 约束 条 件 下 的 人 脸 图 像 识 别 。 假 设 图 像 背景 单一 或 无 背 
景 ， 人 脸 位 置 已 知 或 很 容易 获得 ， 因 此 对 现实 场景 产生 的 图 像 处理 效 果 不 佳 。 

第 三 阶段 ， 主 要 是 进入 20 世纪 90 年 代 ， 由 于 高 速度 高 性 能 的 计算 机 的 出 现 和 各 方面 对 
人 脸 识 别 系统 的 迫切 要 求 ， 人 脸 识别 的 研究 重新 变 得 热门 起 来 ， 人 脸 识别 的 方法 也 有 了 重大 
突破 ， 进 入 了 真正 的 机 器 自动 识别 阶段 ， 同 时 涌现 出 了 很 多 著名 的 人 脸 识 别 算法 ， 例 如 麻 省 
理工 学 院 米 提 实 验 室 的 Turk 和 Pentland 在 1991 年 提出 的 “Eigenface (特征 脸 ) ”方法 "7 ， 
Belhumeur 等 1997 年 提出 的 Fisherface 方法 是 这 个 时 期 的 两 个 重要 成 果 ， 还 有 好 多 方法 都 是 
基于 这 两 个 方法 的 深入 研究 。 再 有 一 个 重要 的 方法 就 是 弹性 图 匹配 技术 (Elastic Graph 
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Matching, EGM) , ， 还 有 在 此 技术 基础 上 发 展 的 一 些 技 术 ， 如 局 部 特征 技术 (Local Feature 
Analysis, LFA) 、 柔 性 模型 (Flexible Models) 。 现 在 人 脸 识别 的 研究 重点 主要 是 对 光照 、 姿 
态 等 非 理 想 采 集 条 件 和 用 户 不 配合 的 情况 下 的 人 脸 识别 方法 的 研究 ， 尽 力克 服 光 照 、 姿 态 的 
影响 。 非 线性 建 模 方法 、 统 计 学 习 理论 、 基 于 Boosting 的 学 习 技术 、 基 于 三 维 模型 的 人 脸 建 
模 与 识别 方法 成 为 备 受 关注 的 研究 趋势 。 


9.2 ”人 脸 识别 关键 问题 的 研究 


1. 人 脸面 部 形态 

人 脸 的 形状 ， 包括 特 征 器 官 的 形状 、 人 位置、 分布， 是 相对 不 变 的 ， 虽然 人 脸 各 部 分 没有 
绝对 标准 ， 并 在 一 定 范围 内 变化 ， 但 它们 之 间 有 一 定 的 比例 关系 。 通 常 所 说 的 “三 庭 五 眼 ” 
是 指 发 际 线 到 眉毛 、 丑 毛 到 鼻孔 、 鼻 孔 到 下 巴 的 距离 各 是 脸 长 的 三 分 之 一 ， 脸 宽 是 五 个 眼睛 
的 长 度 之 和 。 其 中 ， 右 外 耳 孔 至 右 眼 外 角 之 长 = 右 眼 长 = 眼 间距 离 = 左 眼 长 = 左 眼 外 角 至 左 
外 耳 孔 。 另 外 的 知识 包括 : 眼球 四 周 较 亮 ， 中 间 是 一 个 较 暗 的 圆 形 ， 左 、 右 眼 对 称 ,， 左 、 碳 
鼻孔 对 称 ， 这 些 先 验 知识 都 能 给 检测 定位 提供 依据 。 

面部 形态 一 般 可 按照 如 下 的 形态 分 类 。 

(1) WB TB KSC a ARE. WAÉ., HÆ. BRET, 

(2) 眼睛 。 对 眼睛 的 度量 可 分 为 以 下 几 种 : 

1) ABCA ALA ; 

2) 眼 裂 高 度 狭窄 、 中 等 或 较 宽 ，; 

3) 眼 裂 宽度 有 长 有 短 ; 

4) 眼 裂 倾斜 度 水 平 或 内 外 不 等 。 

(3) 鼻子 “对 鼻子 的 度量 可 分 为 以 下 几 种 : 

1) 鼻 根 的 高 度 低 平 或 较 高 ; 

2) SRAM. HOB ATE ; 

3) Bg e IA BEA SS 

4) 鼻 惨 宽度 有 狭窄 、 中 和 等、 宽阔 儿 种 。 

(4) 嘴 导 ”度量 嘴唇 的 量 主要 有 上 层 高 度 、 层 的 厚度 以 及 口 裂 宽度 。 

2. 人 脸 识 别 中 的 视觉 特征 

视觉 是 一 种 复杂 的 信息 处 理 任 务 ， 它 的 研究 涉及 计算 机 技术 和 心理 /神经 生物 科学 ， 早 
期 的 理论 框架 由 D. Marr 于 20 世纪 80 年 代 初 期 提出 ， 他 把 视觉 信息 处 理 划分 为 三 个 不 同 层 
次 来 描述 : 中 计算 理论 ; @) 算 法 ; 包 实 现 机 制 。 

近 几 年 的 研究 表明 ， 人 类 视觉 数据 处 理 是 多 层次 的 过 程 ， 其 中 最 低层 次 的 视觉 过 程 起 信 
息 转 储 作 用 ， 即 将 大 量 的 图 像 数 据 转 换 为 抽象 的 信息 ， 这 一 任务 由 视网膜 中 的 两 类 细胞 完 
成 : 低层 次 的 细胞 对 空间 的 响应 与 小 波 变换 类 似 ， 高 层次 的 细胞 则 依据 低层 次 细胞 的 响应， 
而 作出 具体 的 线 、 面 乃至 物体 模式 的 响应 ， 这 表明 在 视觉 处 理 过 程 中 ， 神 经 元 并 不 是 随便 地 
不 可 靠 地 把 视觉 图 像 的 光照 强度 转手 投射 到 感觉 中 枢 ， 可 以 检测 模式 单元 ， 区 分 物体 的 深 
度 ， 排 除 无 关 的 变化 因素 ， 并 组 成 一 个 使 人 感 兴趣 的 层次 结构 ， 人 上 脸 识别 不 仅 有 着 以 上 普通 
视觉 过 程 的 特点 ， 而 且 具 有 以 下 独特 之 处 : 
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1) 针对 人 脸 识别 ， 大 脑 中 存在 一 个 专门 的 处 理 过 程 。 经 过 长 期 的 研究 ， 人 们 发 现 
大 脑 对 人 脸 的 形状 有 着 特殊 的 兴趣 。 

2) 不 同 的 局 部 特征 作用 对 识别 的 贡献 也 不 同 。 研 究 也 表明 ， 头 发 、 人 脸 轮 廊 、 眼 睛 以 
及 嘴巴 对 识别 和 记忆 有 着 重要 的 有 影响， 鼻子 的 作用 则 不 是 很 重要 ， 通 常 来 讲 ， 人 脸 的 上 部 比 
下 部 对 识别 作用 更 大 些 。 

3) 不 同 空间 频率 上 信息 的 作用 不 同 ， 低 频 信息 代表 了 整体 的 描述 ， 高 频 信息 包含 了 局 
部 的 细节 。 对 于 性 别 的 判断 ， 仅 利用 低频 信息 就 足够 了 ， 对 吴 份 识别 没有 高 频 信息 就 无 法 完 
成 。 

4) 光照 对 视觉 的 影响 。 有 实验 表明 ， 从 人 脸 底 部 打 光 会 导致 识别 困难 。 

5) 动态 信息 比 静态 信息 更 利于 识别 ， 研 究 还 发 现 ， 对 熟悉 的 人 脸 ， 人 类 的 识别 能 力 在 
动态 场景 中 更 高 于 静态 场景 。 

6) 面部 表情 的 分 析 与 人 脸 识 别 并 行 处 理 。 通 过 对 脑 部 受 损 的 病人 研究 表明 "” ， 表 情 的 
分 析 与 识别 虽 有 联系 ， 但 总 体 来 说 是 分 开 处 理 的 。 

3. 人 脸 识别 中 的 光照 问题 

光照 变化 是 影响 人 脸 识别 性 能 的 最 关键 因素 。 对 该 问题 的 解决 程度 关系 着 人 脸 识别 实用 
化 进程 的 成 败 。 我 们 将 在 对 其 进行 系统 分 析 的 基础 上 ， 考 虑 对 其 进行 量化 研究 的 可 能 性 ， 其 
中 包括 对 光照 强度 和 方向 的 量化 、 对 人 脸 反 射 属性 的 量化 、 面 部 阴影 和 照度 分 析 等 。 在 此 基 
础 上 ， 考 虑 建立 描述 这 些 因 素 的 数学 模型 ， 以 便利 用 这 些 光 照 模型 ， 在 人 脸 图 像 预 处 理 或 者 
归 一 化 阶段 尽 可 能 地 补偿 乃至 消除 其 对 识别 性 能 的 影响 。 重 点 研究 如 何在 从 人 脸 图 像 中 将 固 
有 的 人 脸 属 性 〈 反 射 率 属 性 、 三 维 表 面 形 状 属性 ) 和 光源 、 有 遮挡 及 高 光 等 非 人 脸 固 有 属性 
分 离开 来 。 基 于 统计 视觉 模型 的 反射 率 属 性 估计 、 三 维 表面 形状 估计 、 光 照 模式 估计 ， 以 及 
任意 光照 图 像 生 成 算法 是 主要 人 研究 内 容 。 有 具体 考虑 两 种 不 同 的 解决 思路 : 

1) 利用 光照 模式 参数 空间 估计 光照 模式 ， 然 后 进行 针对 性 的 光照 补偿 ， 以 便 消 除非 均 
匀 正 面 光 照 造成 的 阴影 、 高 光 等 影响 。 

2) 基于 光照 子 空间 模型 的 任意 光照 图 像 生成 算法 ， 用 于 生成 多 个 不 同 光照 条 件 的 训练 
样本 ， 然 后 利用 具有 良好 的 学 习 能 力 的 人 脸 识别 算法 ， 如 子 空间 法 、SVM 等 方法 进行 识别 。 

4. 人 脸 识别 中 的 姿态 问题 研究 

姿态 问题 涉及 头 部 在 三 维 垂直 坐标 系 中 绕 三 个 轴 旋 转 造 成 的 面部 变化 ， 其 中 垂直 于 图 像 
平面 的 两 个 方向 的 深度 旋转 会 造成 面部 信息 的 部 分 缺失 ， 使 得 姿态 问题 成 为 人 脸 识别 的 一 个 
技术 难题 。 解 决 姿态 问题 有 三 种 思路 : 

第 一 种 思路 是 ， 学 习 并 记忆 多 种 姿态 特征 ， 这 对 于 多 姿态 人 脸 数据 可 以 容易 获取 的 情况 
比较 实用 ， 其 优点 是 算法 与 正面 人 脸 识 别 统 一 ， 不 需要 额外 的 技术 支持 ， 其 缺点 是 存储 需求 
量 大 、 姿 态 泛 化 能 力 不 能 确定 、 不 能 用 于 基于 单 张 照 片 的 人 脸 识 别 算法 中 等 。 

第 二 种 思路 是 ， 基 于 单 张 视图 生成 多 角度 视图 ， 可 以 在 只 能 获取 用 户 单 张 照片 的 情况 
下 ,合成 该 用 户 的 多 个 学 习 样本 ， 可 以 解决 训练 样本 较 少 的 情况 下 的 多 姿态 人 脸 识 别 问 题 ， 
从 而 改善 识别 性 能 。 

第 三 种 思路 是 ， 基 于 姿态 不 变 特征 的 方法 ， 即 寻求 那些 不 随 姿态 的 变化 而 变化 的 特征 。 
我 们 的 思路 是 采用 基于 统计 的 视觉 模型 ， 将 输入 姿态 图 像 校正 为 正面 图 像 ， 从 而 可 以 在 统一 
的 姿态 空间 内 作 特 征 的 提取 和 匹配 。 
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9.3 ”人 脸 识 别 流程 


在 第 7 章 中 ,已 经 对 人 上 脸 识别 的 流程 做 过 简单 的 介绍 ， 人 脸 识 别 的 流程 也 遵循 传统 模式 
识别 的 流程 ， 所 以 基本 部 分 和 模式 识别 是 差不多 的 ， 但 是 也 有 一 些 差别 。 人 脸 识 别 系 统 的 基 
本 流程 如 图 9-1 所 示 。 























图 9-1 人 脸 识别 系统 的 基本 流程 


从 人 脸 识 别 系统 的 基本 流程 中 ， 也 可 以 发 现 人 脸 识别 的 研究 内 容 主要 分 为 人 脸 检 测 、 人 
脸 特 征 提取 和 人 脸 识 别 三 个 过 程 。 

1. 人 脸 检测 

在 此 相当 于 模式 识别 系统 结构 中 的 信息 获取 ， 我 们 的 目的 是 检测 人 脸 图 像 ， 检 测 到 图 像 
中 的 人 脸 之 后 进行 定位 和 提取 ， 这 里 的 图 像 可 以 是 静态 的 图 像 ， 也 可 以 是 动态 视频 序列 。 人 
脸 检 测 也 是 人 脸 识 别 中 关键 的 一 部 分 ， 在 前 面 已 经 对 其 有 过 说 明 。 此 部 分 包括 人 脸 检 测 
(Detection) 、 人 脸 定 位 (Location) 和 人 脸 跟 踪 (Tracking) 。 所 谓 人 脸 检 测 ， 就 是 给 定 任意 
图 像 ， 确 定 其 中 是 否 存 在 人 脸 ， 如 果 有 ， 给 出 人 脸 的 位 置 、 大 小 等 状态 信息 。 人 脸 跟 踪 是 指 
在 一 组 连续 静态 图 像 所 构成 的 动态 视频 中 ， 实 时 地 检测 人 脸 。 人 脸 检 测 主 要 受到 光照 、 噪 
声 、 姿 态 以 及 遮挡 等 因素 的 影响 ， 人 脸 检测 的 结果 直接 关系 到 后 面 两 个 过 程 的 准确 性 。 近 年 
来 ， 人 脸 检 测 和 跟踪 开始 成 为 独立 的 研究 课题 而 受到 关注 ， 本 章 中 只 对 其 作 简单 的 介绍 。 

2. 人 脸 图 像 预 处 理 

人 脸 图 像 预 处 理 是 对 检测 到 的 人 脸 图 像 的 大 小 归 一 化 和 人 脸 图 像 的 矫正 和 灰 度 均衡 化 
等 ， 目 的 是 去 除 图 像 中 的 噪声 ， 加 强 有 用 的 信息 ， 增 强 特征 信息 。 

3. 人 脸 特征 选择 
由 人 脸 图 像 获取 的 数据 量 是 相当 大 的 ， 例 如 人 脸 图 像 的 尺寸 如 果 是 64 x 64 像素 = 4096 
像素 。 为 了 有 效 地 实现 分 类 识别 ， 就 要 对 原始 的 数据 进行 变换 ， 得 到 最 能 反映 分 类 本 质 的 特 
征 ， 这 就 是 特征 选择 和 提取 的 目的 。 这 一 块 是 人 脸 识 别 中 的 主要 部 分 ， 也 是 本 章 的 重点 工作 
和 研究 。 其 中 有 好 多 的 方法 ， 将 在 下 面 详细 分 析 。 

人 脸 特 征 选择 就 是 选择 提取 人 脸 的 特征 ， 是 将 现实 空间 的 图 像 映射 到 机 器 空间 的 过 程 。 
人 脸 的 特征 具有 多 样 性 和 唯一 性 ， 这 其 实 就 是 人 脸 共 性 和 特性 之 间 的 关系 问题 : 只 有 保持 这 
种 多 样 性 和 唯一 性 ， 才 能 保证 人 脸 图 像 的 准确 描述 和 识别 。 人 脸 图 像 信 息 数据 量 巨大 ， 为 提 
高 检测 和 识别 的 运算 速度 以 及 提高 图 像 传输 和 匹配 检索 速度 ， 必 须 对 图 像 进行 数据 压缩 ， 降 
低 向 量 维 数 ， 即 用 尽 可 能 少 的 数据 表示 尽 可 能 多 的 信息 。 在 提取 人 脸 特 征 的 同时 ， 也 实现 了 
对 原始 图 像 数据 的 降 维 。 

4. 人 脸 识 别 

其 实 就 是 模式 识别 中 的 分 类 决策 ， 即 在 特征 空间 (提取 特征 之 后 的 空间 ) 中 ， 用 分 类 
方法 把 被 识别 对 象 归 为 某 一 类 ， 具 体 的 作法 就 是 在 样本 训练 集 上 ， 确 定 某 一 个 判别 规则 ， 按 
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这 种 判别 规则 对 被 识别 对 象 (人 脸 图 像 ) 进行 分 类 所 造成 的 错误 识别 率 最 小 和 引起 的 损失 
最 小 。 也 就 是 会 有 两 个 过 程 : 一 个 就 是 训练 ;一 个 就 是 识别 ， 基 本 的 步骤 是 相同 的 。 训 练 过 
程 包括 人 脸 检 测 ， 预 处 理 ， 特 征 提取 ， 训 练 分 类 器 ; 识别 过 程 包括 人 上 脸 检测 ， 预 处 理 ， 特 征 
提取 ， 分 类 决策 ， 最 后 输出 识别 的 结果 。 

人 脸 识别 就 是 将 待 识别 的 人 脸 与 已 知人 脸 进 行 比较 ， 得 出 相似 程度 的 有 关 信 息 。 这 里 所 
指 的 人 脸 识别 是 狭义 的 识别 ， 是 统称 的 广义 人 脸 识别 的 一 个 子 过 程 。 

人 脸 识 别 又 分 为 两 类 : MA (Verification) 和 辨认 (Identification) 。 确 认 是 一 对 一 进行 
图 像 比较 (Comparison) 的 过 程 。 辨 认 是 一 对 多 进行 图 像 匹 配 (Matching) 比 对 的 过 程 。 人 
脸 确 认 是 人 脸 辨 认 的 简单 化 ， 人 脸 辨认 比 人 脸 确认 要 难得 多 ， 因 为 人 脸 辨认 系统 涉及 大 批量 
数据 的 比 对 。 在 海量 数据 的 检索 比 对 中 ， 识 别 精度 和 检索 时 间 是 相当 重要 的 指标 ， 因 而 这 一 
过 程 的 核心 是 选择 适当 的 人 脸 表 征 方式 和 匹配 策略 。 

评价 一 个 人 脸 自 动 识别 系统 的 标准 ， 虽 然 目 前 还 没有 一 个 公认 的 标准 ， 但 是 比较 认同 的 
一 个 是 误 识 率 ， 即 将 某 人 错 识别 为 其 他 人 ; 另 一 个 是 虚 警 率 ， 即 将 其 他 人 识别 为 这 个 人 。 这 
两 者 之 间 是 存在 矛盾 的 ， 所 以 在 实际 问题 中 往往 需要 进行 某 种 折 中 ， 如 在 安全 性 要 求 较 高 的 
计算 机 登录 系统 中 ， 必 须要 求 虚 警 率 要 尽 可 能 低 ， 而 误 识 率 则 可 以 高 一 些 ， 这 样 只 是 增加 合 
法 用 户 的 登录 时 间 ， 并 不 会 降低 计算 机 系统 的 安全 性 。 这 一 点 同样 适用 于 特征 提取 与 识别 环 
节 ， 但 是 对 于 人 脸 检测 与 定位 ， 一 般 则 要 求 误 识 率 要 尽 可 能 低 ， 因 为 这 样 才 可 以 保证 所 要 识 
别 的 人 不 会 在 这 一 步 就 丢失 。 


9.4 人 脸 识 别 系统 的 设计 与 实现 


本 节 介 绍 的 原型 系统 实现 了 基于 实时 视频 序列 的 人 脸 识 别 ， 传 统 的 人 脸 识 别 技术 是 基于 
静态 图 片 的 ， 不 能 利用 实时 中 人 脸 的 动态 信息 图 像 序 列 的 时 间 信 息 。 而 实时 图 像 序列 正好 可 
以 弥补 这 些 缺 陷 。 人 脸 识 别 系统 是 一 个 数据 处 理 过 程 ， 按 照 一 般 的 数据 处 理 系统 流程 ， 应 该 
包括 数据 采集 、 数 据 处 理 、 数 据 存储 过 程 ， 对 应 到 人 脸 识别 系统 就 是 人 脸 图 像 采 集 、 人 脸 识 
别 、 人 脸 图 像 的 永久 存储 。 人 脸 识别 部 分 前 面 已 经 详细 介绍 过 ， 不 再 歼 述 。 

基于 普通 PC 的 图 像 采集 方法 一 般 分 为 两 种 : 一 种 是 模拟 摄像 头 和 图 像 采 集 卡 构成 的 较 
为 专业 的 工业 图 像 采 集 方法 ， 这 种 图 像 采 集 方 法 需要 用 到 图 像 采集 卡 提供 的 二 次 开发 软件 开 
Af (SDK); 男 一 种 是 民用 的 方便 的 通用 串 行 接口 (USB) 摄像 头 图 像 采 集 方法 ， 只 要 安 
装 了 摄像 头 驱 动 程 序 ， 可 以 直接 采用 Windows 自 带 的 视窗 操作 环境 (VFW) 开发 包 来 获取 
图 像 。 考 虑 系统 所 应 用 的 场合 和 系统 便 件 成 本 ， 我 们 使 用 USB 摄像 头 作为 采集 设备 。 

人 脸 图 像 的 永久 存储 ， 就 是 图 像 数据 在 硬盘 上 的 保存 ， 有 两 种 方法 : 一 种 方法 是 将 图 像 
直接 保存 到 硬盘 上 ， 每 个 人 为 一 个 文件 夹 ， 这 种 方法 的 优点 是 保存 的 东西 很 直观 ， 对 于 小 型 
系统 和 演示 系统 以 及 大 型 系统 的 前 期 调试 都 很 适合 ; 另 一 种 方法 是 采用 成 熟 的 数据 库 软 件 来 
存储 图 像 ， 比 如 用 SQL Server 或 者 Oracle 等 数据 库 软 件 ， 此 种 方式 对 于 数据 的 安全 性 有 很 大 
好 处 ， 而 且 便 于 统计 和 分 类 以 及 数据 的 备份 、 恢 复 、 转 存 等 。 一 般 的 应 用 系统 都 会 采用 此 种 
方法 。 我 们 系统 中 前 期 采用 了 文件 夹 的 方式 来 保存 数据 ， 便 于 直观 地 调试 系统 。 系 统 稳定 
后 ， 我 们 采用 SQL Server 来 保存 图 像 数 据 。 
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9.4.1 人 脸 识别 系统 的 总 体 设计 
人 脸 识别 系统 的 总 体 设 计 框架 如 图 9-2 所 示 。 


摄像 头 采集 模块 Alo 特征 提取 和 识别 
图 像 存 取 模 块 人 脸 特 征 训练 


图 92 ”人 脸 识别 系统 的 总 体 总 计 框 架 





识别 结果 










标准 人 脸 库 








l. 摄像 头 采集 模块 

摄像 头 和 采集 模块 直接 采用 微软 公司 提供 的 VFW SDK, VEW 是 微软 公司 1992 年 推出 的 
关于 数字 视频 的 一 个 软件 包 ， 它 能 使 应 用 程序 通过 数字 化 设备 从 传统 的 模拟 视频 源 得 到 数字 
化 的 视频 剪辑 。VFW 主要 由 以 下 六 个 模块 组 成 : 

(1) AVICAP. DLL 包含 执行 视频 捕获 的 函数 ， 它 给 音频 视频 交错 格式 CAVI). 文件 的 
LO 处 理 和 视频 、 音 频 设备 驱动 程序 提供 一 个 高 级 接口 。 

(2) MSVIDEO. DLL 包含 一 套 特殊 的 DrawDib 函数 ， 用 来 处 理 屏幕 上 的 视频 操作 。 

(3) MCIAVI DRV 包括 对 VEW 的 多 媒体 控制 接口 (MCI) 命令 解释 器 的 驱动 程序 。 

(4) AVIFILE.DLL 包含 由 标准 多 媒体 IO (mmio) 函数 提供 的 更 高 的 命令 ， 用 来 访 
问 AVI 文件 。 

(5) 压缩 管理 器 (ICM) 用 于 管理 视频 压缩 /解压 缩 的 编译 码 器 (Codec ) 。 

(6) 音频 压缩 管理 器 (ACM) ”提供 与 ICM 相似 的 服务 ， 适 用 于 波形 音频 。 

AVICap 窗口 类 支持 实时 的 视频 流 捕获 和 单 帧 捕获 ， 并 提供 对 视频 源 的 控制 。 它 能 直接 
访问 视频 缓冲 区 ， 不 需要 生成 中 间 文 件 ， 实 时 性 很 强 ， 效 率 很 高 ， 而 且 它 还 可 将 数字 视频 捕 
获 到 一 个 文件 中 。 

捕获 窗 类 似 于 标准 控件 (如 按钮 、 列 表 框 等 )， 并 具有 下 列 功能 : 

1) 将 视频 流 和 音频 流 捕获 到 一 个 AVI 文件 中 ; 

2) 动态 地 同 视频 和 音频 输入 絮 件 连接 或 断 开 ; 

3) 以 Overlay (车 加 ) 或 Preview (TW) 模式 对 输入 的 视频 流 进行 实时 显示 ; 

4) 在 捕获 时 ， 可 指定 所 用 的 文件 名 ， 并 能 将 捕获 文件 的 内 容 复 制 到 另 一 个 文件 中 ; 

5) 设置 捕获 速率 ; 

6) 显示 控制 视频 源 、 视 频 格式 、 视 频 压 缩 的 对 话 框 ; 

7) 创建 、 保 存 或 载 人 调 色 板 ; 

8) 将 图 像 和 相关 的 调 色 板 复制 到 剪贴 板 上 ; 

9) 将 捕获 的 单 帧 图 像 保存 为 与 设备 无 关 位 图 (DIB) 格式 的 文件 。 

使 用 捕获 窗 回调 函数 ， 一 帧 一 帧 地 获得 视频 数据 ， 或 以 流 的 方式 获得 视频 数据 ， 这 些 数 
据 进一步 送 到 存储 模块 进行 存储 ,或 者 送 到 人 脸 检 测 和 识别 模块 去 做 识别 处 理 。 

2. 图 像 存 取 模 块 

为 了 有 效 地 管理 大 量 图 像 数 据 ， 创 建 了 database 类 和 person 类 。database 类 中 包含 数据 
的 两 种 来 源 方式 : (D 来 自 文件 夹 ; ORA SQL Server， 只 要 稍 做 设置 ， 就 能 更 改 这 种 来 源 方 
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式 。 而 且 database 类 维护 了 一 个 人 的 链表 ， 保 存 了 所 有 person 类 的 对 象 ， 提 供 了 修改 此 链表 
方法 〈 比 如 增加 、 删 除 、 查 找 等 ) 的 接口 ， 除 了 从 摄像 头 采 集 图 像 来 新 建 person 对 象 外 ， 
还 提供 了 一 个 方便 的 功能 ， 就 是 直接 读 取 标准 人 脸 库 中 的 图 像 来 新 建 person 对 象 。person 类 
表示 一 个 人 ， 它 能 够 存 取 数据 库 ， 它 内 部 维护 一 个 图 像样 本 链表 ， 提 供 增 加 、 删 除 等 接口 ， 
对 文件 夹 和 数据 库 软件 提供 不 同 的 读 取 (Load) 图 像 和 保存 (Save) 图 像 方法 ， 并 且 其 内 
部 有 一 个 特征 类 对 象 ， 如 果 这 个 person 类 对 象 的 图 像样 本 经 过 训练 ,那么 这 个 特征 类 对 象 
将 会 保存 此 样本 的 特征 值 ， 在 识别 时 将 会 用 到 。 

对 于 直接 的 硬盘 文件 存 取 ， 采 用 OpenCV 提供 的 图 像 读 取 和 保存 函数 ， 这 些 函 数 方 便 地 
KIT BMP, JPG, GIF 等 各 种 图 像 的 读 取 和 保存 。 对 于 数据 库存 取 方 式 ， 把 图 像 数 据 块 当 
成 二 进 制 数据 存储 到 数据 库 表 中 的 一 个 二 进 制 字 段 中 ， 在 读 取 时 ， 把 这 些 二 进 制 数 据 从 数据 
库 中 读 取 ， 然 后 当 作 一 个 内 存 文件 使 用 OpenCy 的 函数 进行 装载 。 

3. 人 脸 检测 及 特征 提取 和 识别 模块 

系统 要 求 是 实时 的 人 脸 识 别 ， 所 以 人 脸 检 测 部 分 需要 尽量 地 节省 时 间 ， 但 是 又 要 保证 较 
高 的 检测 率 、 尽 量 小 的 误 识 率 。 对 比 最 常用 的 两 种 人 脸 检 测 方法 : 肤色 模型 法 和 Haar (fs 
AR) 特征 法 。 肤 色 建 模 方 法 的 算法 简单 、 速 度 快 ， 能 够 保证 较 高 检测 率 ， 但 是 其 致命 缺点 
是 有 较 高 的 误 识 率 ， 也 就 是 说 如 果 有 人 脸 ， 这 种 方法 能 保证 很 高 的 几率 检测 出 来 ， 但 是 这 种 
方法 无 法 区 分 人 脸 和 非 人 脸 肤 色 部 分 ， 经 常 出 现 的 结果 是 ， 脖 子 和 手臂 都 当成 人 脸 区 域 ， 严 

影响 后 续 的 识别 步 又。 这 个 缺点 也 能 够 使 用 一 些 方法 进行 修正 ， 比 如 利用 人 脸 的 对 称 性 ， 

再 次 对 类 人 脸 区 域 进行 判别 ， 最 终 是 延长 处 理 时 间 、 降 低 误 识 率 ， 对 于 我 们 的 实时 人 脸 识 别 
系统 ， 这 种 方法 没有 很 好 的 评判 标准 ， 检 测 到 假 人 脸 区 域 太 多 ， 最 终 采 用 了 拥有 高 检测 率 、 
低 误 识 率 的 基于 Harr 特征 的 人 脸 检 测 方法 ， 结 合 利用 视频 图 像 相关 性 改进 图 像 竺 处理 区 域 ， 
减少 了 处 理 时 间 ， 满足 了 要 求 ， 在 下 节 我 们 对 此 将 具体 阐述 。 

经 过 长 期 研究 发 现 ， 在 众多 的 人 脸 识 别 算法 中 ，HMM 人 上 脸 识别 方法 为 描述 不 同 的 表象 
之 间 提 供 了 联系 ， 不 但 整体 描述 人 脸 的 数值 ， 而 且 为 不 同 姿态 的 人 脸 之 间 描 述 了 联系 。 它 提 
供 了 描述 复杂 现象 的 一 种 可 能 机 制 。 按 照 这 种 模型 ， 观 测 到 的 一 列 特征 (例如 描述 脸庞 的 
一 组 数值 特征 ) 被 看 成 是 男 一 组 不 可 观测 的 (因此 是 隐 性 的 ) “状态 ”产生 出 的 一 列 实现 。 
状态 既然 是 不 可 观测 的 ， 它 的 个 数 是 未 知 的 ， 但 可 以 假定 。 选 择 状 态 个 数 的 多 少 必须 在 模型 
的 复杂 性 和 描述 复杂 现象 准确 度 之 间 进 行 折 中 。 一 个 合理 的 或 好 的 隐 马 尔 可 夫 模 型 应 该 是 这 
样 的 : 给 定 一 组 观测 序列 ， 从 关于 状态 的 适当 的 一 组 初始 分 布 出 发 ， 能 够 产生 出 一 组 实现 序 
列 ， 它 非常 好 地 逼近 给 定 的 观测 序列 。 


9.4.2. 人 脸 识别 系统 的 算法 设计 


在 我 们 的 人 脸 识别 系统 当中 ， 主 要 包括 两 大 部 分 ， 就 是 人 脸 检 测 和 人 脸 识 别 。 下 面 就 分 
别 对 人 脸 检测 和 人 脸 识别 的 算法 进行 介绍 。 

1. 基于 Haar 特征 的 人 脸 检 测 的 算法 

基于 Haar 特征 的 人 脸 检 测 方法 的 基本 思想 是 : 利用 样本 图 像 的 Haar 特征 ， 基 于 
AdaBoost 分 类 算法 ， 进 行 分 类 器 训练 。 最 后 ， 组 合 几 个 简单 的 分 类 器 得 到 最 终 的 级 联 分 类 
屁 。 分 类 器 训练 完 以 后 ， 就 可 以 应 用 于 输入 图 像 中 的 感 兴 趣 区 域 与 训练 样本 相同 的 尺寸 的 检 
测 。 为 了 检测 整 幅 图 像 ， 可 以 在 图 像 中 移动 搜索 窗口 ， 检 测 每 一 个 位 置 来 确定 可 能 的 目标 。 
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为 了 搜索 不 同 大 小 的 目标 物体 ， 分 类 器 被 设计 为 可 以 进行 太 二 改变 的 ， 这 样 比 改 变 竺 检 图 像 
的 尺寸 大 小 更 为 有 效 。 所 以 ， 为 了 在 图 像 中 检测 未 知 大 小 的 目标 物体 ， 扫 描 程 序 通常 需 
用 不 同比 例 大 小 的 搜索 窗口 对 图 片 进行 几 次 扫描 。 在 图 像 检测 中 ， 被 检 窗 口 依次 通过 每 一 级 
分 类 器 ， 这 样 在 前 面 几 层 的 检测 中 ， 大 部 分 的 候选 区 域 就 被 排除 了 ，, 全 部 通过 每 一 级 分 类 吕 
检测 的 区 域 即 为 目标 区 域 。 

(1) AdaBoost 学 习 算 法 ”对 于 Haar 特征 而 言 ， 一 个 24 x24 像素 的 矩形 区 域 可 以 形成 的 
Haar 和 矩 形 特征 达 几 万 种 ， 远 远 超 过 了 24x24 的 像素 的 个 数 。 即 使 每 个 特征 都 可 以 快速 地 计 
4t, 计算 所 有 的 集合 都 非常 耗 时 。 我 们 可 以 首先 假设 ,一 个 很 小 的 特征 集合 就 可 以 组 合成 有 
效 的 分 类 器 〈 后 来 的 试验 证 实 了 这 一 个 假设 ) 。 但 是 ， 最 大 的 挑战 就 是 如 何 选择 这 些 特征 。 

在 给 定 正 例 图 像 和 反例 图 像 作为 训练 图 像 集合 后 ， 再 针对 某 个 特定 的 特征 集合 ， 可 以 通 
过 任何 机 器 学 习 方 法 (例如 ; 混合 高 斯 模型 、 神 经 系统 等 ) 来 训练 。 最 近 机 带 学 习 研 究 提 
出 的 支持 向 量 机 和 放大 (Boost ) 方法 ， 都 可 以 在 非常 高 维 的 空间 中 进行 分 类 。 我 们 使 用 后 
者 ， 因 为 它 可 以 在 许多 可 能 的 特征 中 选择 很 少 一 部 分 。 放 大 (Boos) WAF, MA 
“Jar” (Weak Learner ) ， 就 是 指 那些 简单 的 学 习 算 法 。 我 们 不 期 望 最 好 的 分 类 函数 来 对 
训练 数据 分 类 ， 例 如 最 好 的 感知 器 也 只 能 对 训练 集合 达到 91% 的 分 类 。 为 了 使 得 弱 分 类 的 
增强 放大 ， 需 要 进行 一 系列 的 学 习 。 对 第 一 轮 学 习 后 ， 样 本 被 重新 计算 权 值 ， 增 强 那些 非 正 
确 分 类 部 分 。 最 后 ， 一 个 “ 强 分 类 器 ”就 形成 了 ， 它 是 弱 分 类 器 在 取 某 个 净值 后 的 加 权 组 
合 。 例 如 ， 对 于 “简单 感知 器 ”而 言 ， 最 终 的 “ 强 分 类 器 ”就 是 “简单 感知 右 ” 的 加 权 组 
合 ， 也 就 是 说 ， 一 个 简单 的 、 数 量 很 少 的 弱 分 类 器 可 以 进行 组 合成 为 强 分 类 器 。 

AdaBoost 学 习 算法 的 学 习 过 程 ， 可 以 理解 为 “ 贪 禁 的 特征 选择 过 程 ”。 对 一 个 问题 ， 通 
过 加 权 投 票 机 制 ， 用 大 量 的 分 类 函数 的 加 权 组 合 来 判断 。 算 法 的 关键 是 ， 将 那些 分 类 效果 好 
的 分 类 函数 赋予 大 的 权 值 ， 分 类 效果 差 的 赋予 较 小 的 权 值 。AdaBoost 是 一 个 寻找 那些 可 以 对 
目标 很 好 地 进行 分 类 的 少数 特征 的 有 效 方法 。 

实际 应 用 中 ， 使 用 AdaBoost 的 方法 选择 特征 ， 就 是 将 “ 弱 学 习 器 ”加 上 一 个 限定 ， 一 
个 “ 弱 学 习 器 ”对 应 一 个 矩形 特征 ， 在 进行 放大 (Boost) 的 过 程 中 ， 每 一 次 放大 选择 一 个 
学 习 髓 ， 就 是 选择 一 个 特征 。 这 个 学 习 器 对 正 例 和 反例 的 区 分 度 达 到 最 优 。 对 每 个 特征 ， 
“ 弱 学 习 器 ”使 得 每 个 分 类 函数 的 冰 值 达到 最 优 。 在 这 里 的 弱 分 类 器 指 的 是 用 Haar 特征 直 
接 构 成 的 分 类 器 ， 弱 分 类 器 的 函数 表达 式 如 下 : 

wo! ne 
o ”其 他 

式 中 ,x 表示 任意 输入 窗口 ; f(x). 表示 第 j 个 特征 在 x 上 的 值 ; pj 取 值 +1、-1 控制 不 等 
式 方向 ; b 表示 阔 值 。 弱 分 类 器 所 含 信息 量 较 少 ， 不 能 用 来 直接 分 类 。 单 一 的 特征 无 法 保证 
分 类 达到 很 低 的 误差 。 在 早 一 轮 的 选择 特征 的 错误 率 可 以 在 0.1 ~0.3 之 间 ， 而 随 着 后 一 轮 
的 放大 ， 误 差 会 增 大 ， 在 0.4~0.5 之 间 。 

下 面 是 学 习 算 法 (7 为 特征 个 数 ): 

1) SHA Gu, m) ot, Cy y) Yi=1 表示 图 像 是 正比 例 ，y; =0 表示 图 像 是 反比 
例 。 

2) 初始 化 权 值 WW 









































































































































(9-1) 
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l y; =0 
W= l” (9-2) 
i 1 
mE Yi =1 
n 
3) t-1 
4) 将 权 值 归 一 化 
js ee l (9-3) 
2, W,; 





5) 对 每 个 特征 j， 训 练 一 个 只 使 用 茶 一 个 单一 特征 的 分 类 右 h， 然 后 得 到 本 次 分 类 的 误 
He 为 








e; = X wl h(x) - y,l (9-4) 
i=l 


6) 选择 误差 。 最 小 的 分 类 器 h， 更 新 权 值 : wy mw Bp: OY «, 分 类 正确 时 ，w = 
0; Qi x, 分 类 错误 时 , v, 21, B, =e,/ (1-e)。 

7)t=t+1 

8) 5< 了 转向 4) 

9) 得 到 最 后 的 分 类 器 。 

1988 年 ，Keams 等 人 提出 了 Boosting 理论 基本 思想 : CEPA I, “ 弱 的 学 习 算 法 ” 
可 以 应 用 一 定 的 策略 进行 加 强 ， 从 而 得 到 任意 精确 的 “ 强 的 学 习 算 法 ”。1997 年 Freund 等 
人 提出 自 适应 增强 (Adaptive Boosting) 算法 。 这 种 方法 允许 分 类 器 设计 者 不 断 加 入 新 的 
“ 弱 分 类 器 "”， 直 到 达到 预 设 的 分 类 精度 。 此 算法 训练 过 程 中 ， 每 个 样本 拥有 一 个 初始 权 值 ， 
表示 该 样本 被 某 个 弱 分 类 器 选中 的 概率 。 如 果 某 个 样本 被 正确 分 类 ， 构 造 下 一 个 训练 集 时 ， 
降低 其 权 值 ， 反 之 增加 其 权 值 。 通 过 此 算法 ， 每 一 轮 都 会 增强 那些 使 分 类 错误 的 “困难 ” 
样本 上 ， 每 一 轮 选 出 一 个 最 优 弱 分 类 器 ， 这 些 分 类 器 线性 组 合 而 成 强 分 类 器 ， 即 

T 1 T 
hys 1 2, ah, (x) > -A a, (9-5) 
0 ”其 他 
式 中 , a, =log (1/B,)，B; 表示 第 i 迭代 时 h(x) 的 权 值 。 

最 后 ，AdaBoost 算法 构造 的 特征 大 概 为 200 个 。 对 于 人 脸 检 测 ，AdaBoost 选择 的 权 值 最 
高 的 几 个 矩形 特征 很 容易 理解 。 第 一 个 特征 关注 的 ， 就 是 包含 眼睛 的 区 域 。 眼 睛 区 域 比 鼻 子 
和 面颊 的 矩形 区 域 亮 度 上 更 暗 〈 亮 度 值 小 于 某 个 浆 值 ) 。 这 个 特征 是 和 人 脸 大 小 以 及 位 置 无 
关 。 第 二 个 特征 表示 的 ， 是 眼睛 所 在 的 区 域 总 是 比 鼻 梁 所 在 的 区 域 亮度 更 暗 ， 所 以 通过 选择 
和 学 习 后 的 包含 200 个 特征 的 分 类 器 ， 对 于 目标 检测 是 非常 有 效 的 。 

(2) 层 礁 分 类 器 算法 “对 于 多 个 强 分 类 器 ， 采 用 排除 的 思想 ， 即 先 用 比较 简单 的 特征 
构成 的 强 分 类 器 去 排除 显然 不 是 人 脸 的 区 域 ， 然 后 把 剩余 的 待 检测 区 域 送 到 下 一 个 强 分 类 器 
进行 处 理 ， 这 样 逐 级 排除 ， 最 终 排 除了 所 有 非 人 脸 区 域 。 如 果 有 剩余 区 域 ， 那 就 是 人 脸 区 
域 ， 否 则 表示 未 检测 到 人 脸 区 域 。 对 于 有 天 个 强 分 器 构成 的 层 琶 分 类 器 ， 其 检测 率 F MR 
IER D 分 别 如 下 列 两 式 所 示 : 
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(9-6) 


从 以 上 两 个 公式 可 以 得 出 两 点 结论 : 

1) 为 了 保证 最 终 的 高 检测 率 ， 每 个 强 分 类 器 也 要 求 有 高 检测 率 。 假 设 最 终 的 检测 率 是 
90% ， 那 么 对 于 每 一 个 强 分 类 器 ， 其 检测 率 都 不 能 低 于 90% ， 如 果 下 =10， 那 么 每 个 强 分 类 
器 的 检测 率 都 应 该 在 99% 左右， 因为 0.99" =0.9。 检 测 率 高 只 是 保证 如 果 有 人 脸 ， 必 然 能 
检测 出 ， 但 不 保证 把 非 人 脸 检 测 为 人 脸 的 误 检 。 

2) 为 了 降低 最 终 的 误 检 率 ， 不 必 过 分 强求 每 一 个 强 分 类 器 有 很 低 的 误 检 率 。 假 设 每 个 
强 分 类 器 的 误 检 率 为 0.5。 对 于 到 = 10 IZ AD ECRIRE =0. 5° ~0. 1% 。 
































(3) 视频 序列 中 减少 检测 区 域 的 算法 设计 经 过 测试 ， 发 现在 背景 不 是 很 复杂 且 相 对 
静止 的 情况 下 ， 人 脸 正 面 左右 偏 尖 不 超过 20° 时 ,检测 率 能 达到 98% ， 并 且 误 检 率 几乎 为 0。 











经 过 测试 ， 对 于 常见 视频 320 x 240 像素 大 小 的 图 片 ， 需 要 56ms 左右 ， 常 见 视频 的 帧 率 
是 24 ~30 帧 /s， 也 就 是 说 每 帧 时 长 为 33 ~42ms， 如 果 要 做 到 实时 人 脸 检测 ， 算 法 耗 时 最 好 
少 于 20ms， 因 为 要 为 系统 的 后 续 处 理 〈 比 如 人 脸 识别 和 表情 识别 ) 留 下 足够 的 处 理 时 间 。 

1) 图 像 大 小 的 耗 时 测试 : 对 大 量 相同 图 像 进行 玉 度 上 的 缩放 ， 并 且 用 训练 好 的 Haar 分 




















类 器 进行 了 测试 。 表 9-1 所 示 是 图 像 处 理 的 经 典 图 片 lena. jpg 的 耗 时 (不 包括 图 像 读 取 和 格 
式 转 换 的 时 间 )。 
表 9-1 相同 图 像 内 容 、 不 同 图 像 大 小 人 脸 检 测 耗 时 
图 像 太 二 /像素 检测 时 间 /ms 
512 x512 224 
256 x256 48 
128 x 128 12 











由 上 面 的 实验 可 以 得 出 的 结论 是 : 基于 Haar 特征 的 人 脸 检 测 耗 时 跟 图 像 大 小 成 正比 。 
这 也 很 容易 理解 ， 图 像 面 积 越 大 ， 需 要 计算 的 弱 分 类 器 中 的 特征 值 就 越 多 ， 导 致 耗 时 增加 。 

2) 最 小 人 脸 尺 度 区 域 的 耗 时 测试 :因为 人 脸 大 小 未 知 ， 所 以 需要 多 尺度 搜索 ， 给 定 一 
个 最 小 搜索 尺度 ， 如 末 为 20 x20 像素 ,那么 每 检测 一 次 太 度 都 变 为 上 次 1.2 倍 〈 可 以 自 定 
义 ， 一 般 为 这 个 值 ) ， 即 检测 区 域 大 小 为 (20 x 1.2 ) x Q0 x1.2 ), 其 中 i 表示 第 几 次 ， 当 
然 要 限制 此 区 域 长 宽 都 不 能 超过 图 像 长 帘 。 对 于 视频 图 像 大 小 320 x 240 像素 ， 我 们 得 到 表 
9-2 所 示 的 测试 结 


























表 9-2 ”相同 图 像 不 同 最 小 人 脸 检测 尺度 耗 时 














最 小 人 脸 尺 度 /像素 平均 检测 时 间 /ms 
20 x20 100 
40 x40 35 
60 x60 16 

















由 上 面 的 实验 我 们 得 出 的 结论 是 : 基于 Haar 特征 的 人 脸 检 测 耗 时 跟 检 测 最 小 人 脸 尺 度 
成 反比 。 因 为 人 脸 尺 度 未知 ， 那 么 需要 多 尺度 检测 ， 最 小 人 脸 尺 度 越 大 ， 尺 度 层次 就 越 少 ， 
时 间 也 就 越 少 。 





经 过 以 上 的 实验 ， 为 了 显著 降低 Haar Tfl 


F 提 取 耗 时 ， 必 须 减 少 待 检测 区 域 ， 增 加 最 小 








人 脸 尺 度 区 域 。 众 所 周知 ， 视 频 序列 图 像 中 两 
列 图 像 的 相关 性 ， 减 小 待 检测 区 域 ， 增 加 最 小 





夺 图 像 之 间 有 很 大 的 相关 性 ， 可 以 利用 时 序 序 
人 脸 尺 度 区 域 。 以 下 讨论 基于 Haar 特征 的 人 


206 


脸 检 测算 法 在 视频 序列 图 像 中 的 改进 方法 。 假 设 已 知 所 检测 的 视频 中 最 多 有 一 个 人 脸 ， 我 们 
提出 如 下 的 检测 步 又 : 

中 如 果 是 第 一 帧 图 像 或 者 前 一 帧 没有 找到 人 脸 ， 执 行 步 骤 @。 否 则 做 如 下 处 理 : 对 后 续 
的 视频 图 像 序列 ， 在 前 一 帧 人 脸 区 域 的 1.2 倍 区 域 寻 找 人 脸 ， 且 将 最 小 人 脸 尺 度 设置 为 前 一 
帧 人 脸 斥 度 的 0.8 倍 ， 例 如 前 一 帧 的 人 脸 义 度 为 100 x 100 像素 ,那么 此 帧 的 人 脸 尺 度 为 
(100 x0.8) x (100x0.8) 像素 。 如 果 检 测 到 人 脸 ， 则 此 帧 处 理 完毕 。 

@) 参 考 文献 [5] 讨 论 了 一 种 车 体 识 别 方法 ， 计 算 此 帧 灰 度 图 像 和 前 一 帧 图 像 的 灰 度 值 
差 ， 然 后 对 差分 图 像 进行 自 适应 装 值 的 二 值 化 ， 计 算 投影 来 判定 汽车 位 置 。 我 们 把 这 种 算法 
进行 改进 并 应 用 到 人 脸 检 测 上 。 如 图 9-3 所 示 ， 最 上 面 两 幅 是 视频 序列 图 像 中 的 两 帧 连续 的 
图 像 ， 下 面 左 边 图 示 的 是 对 差分 图 像 进行 自 适应 阔 值 的 二 值 化 图 像 。 最 后 进行 水 平和 垂直 投 
影 得 到 变化 区 域 ， 在 此 区 域 的 1.2 售 区 域内 检测 人 脸 ， 最 小 人 脸 尺 度 设置 此 区 域 的 0.8 fii, 
如 果 检 测 到 人 脸 ， 则 此 帧 处 理 完毕 。 对 于 大 小 为 320 x 240 像素 的 视频 序列 图 像 ， 经 实验 测 
试 ， 此 步骤 处 理 平均 耗 时 平均 仅 为 4ms。 

(3) 在 全 图 像 中 寻找 人 脸 ， 最 小 人 脸 搜 索 尺度 设置 为 20 x 20 像素 。 如 果 检 测 到 人 脸 ， 那 
么 此 帧 处 理 完毕 ， 否 则 认为 此 帧 图 像 无 人 脸 。 



































































































































图 9-3 ”差分 检测 人 脸 

在 上 述 的 检测 步骤 中 ， 其 实 是 对 应 人 脸 在 视频 中 的 三 种 情况 : 一 、 被 检测 的 人 脸 在 摄像 
头 的 视频 范围 内 没有 大 的 移动 ， 相 当 于 有 一 种 先 验 知识 ， 减 小 了 待 检测 区 域 ， 采 用 步骤 中 就 
可 以 检测 到 人 脸 ; 二 、 被 检测 的 人 脸 有 移动 ， 采 用 步骤 中 的 差分 方法 估计 移动 区 域 ， 减 少 了 
待 检测 区 域 ， 用 Haar 特征 算法 可 以 很 快 地 检测 到 人 脸 ， 提 高 了 实时 性 ; 三 、 移 动 范围 过 大 
其 至 移出 摄像 区 域 ， 那么 执行 步骤 G3) 确定 是 否 有 人 脸 。 这 些 步 又 虽然 看 似 比 直接 从 全 图 像 寻 
找 人 脸 复杂 ,但 是 对 于 视频 序列 的 人 脸 检测 ， 却 能 显著 提高 检测 速度 ， 如 果 有 人 脸 存在 ， 那 
么 在 视频 序列 中 人 脸 图 像 的 位 置 和 尺度 会 有 很 大 的 相关 性 ， 根 据 前 几 帧 的 先 验 知识 ， 限 定 检 
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测 区 域 和 人 脸 搜 索 尺 度 区 域 的 大 小 ， 可 以 显著 地 提高 算法 效率 和 实时 性 。 

2. 人 脸 识 别 的 HMM 算法 

对 于 已 检测 出 的 人 脸 图 像 ， 将 它 与 数据 库 中 的 已 知人 脸 进 行 比较 匹配 ， 得 出 识别 的 结 
果 。 这 部 分 工作 是 由 人 脸 识别 算法 来 完成 。 对 于 自动 人 脸 识别 系统 ， 一 个 环境 适应 性 强 并 且 
识别 率 高 的 算法 是 整个 系统 的 关键 。 人 脸 识 别 部 分 采用 了 一 种 较为 成 熟 的 人 脸 识 别 方法 一 一 
基于 隐 马 尔 可 夫 模 型 (HMM) 的 人 脸 识别 方法 。 关 于 隐 马 尔 可 夫 模 型 的 介绍 可 参考 本 书 的 


E 


第 8 章 。 



































9.4.3 人 脸 识 别 系统 的 实现 


按 功能 此 系统 分 为 三 部 分 : 图 像 数 据 的 采集 和 获取 、 数 据 的 存 取 、 人 脸 的 检测 和 识别 。 
前 两 部 分 都 是 依照 设计 部 分 来 实现 的 ， 由 于 这 两 部 分 难度 不 大 ， 主 要 是 程序 编写 技术 问题 ， 
这 里 就 不 再 袭 述 。 以 下 首先 介绍 OpenCV， 然 后 讨论 基于 OpenCV 的 系统 实现 。 

1. OpenCV 简介 

OpenCV & “Open Source Computer Vision Library” 的 简写 ， 是 Intel 公司 的 开源 计算 机 
视觉 库 。 它 由 一 系列 C 函数 和 少量 的 C ++ 类 构成 ， 实 现 了 图 像 处 理 和 计算 机 视觉 方面 的 很 
多 通用 算法 。 在 OpenCV 最 初 的 阶段 ， 它 是 由 美国 Intel 公司 开发 和 维护 的 ， 随 后 Intel 公司 
把 它 交 给 了 开源 社区 维护 和 开发 ， 经 过 全 世界 优秀 的 程序 员 的 共同 努力 ， 现 在 的 OpenCV 已 
经 演变 成 一 个 使 用 方便 、 功 能 强大 、 专 注 于 计算 机 视觉 方面 的 函数 库 ， 而 且 还 在 不 断 更 新 
中 。OpenCV 的 优点 表现 在 以 下 几 个 方面 : 

© 开放 源 代 码 ; 

e 基于 Intel 处 理 带 指令 集 开 发 的 优化 代码 ; 

© 统一 的 结构 和 功能 定义 ; 
强大 的 图 像 和 和 矩阵 运算 能 力 ; 

e 方便 灵活 的 用 户 接口 ; 

e 同时 支持 MS-Windows, Linux 平台 。 

最 新 的 OpenCV 已 经 包含 了 大 量 的 函数 和 例子 用 来 处 理 计算 机 视觉 领域 中 常见 的 问题 ， 
其 中 主要 涉及 到 以 下 几 个 方面 的 内 容 : 

e Motion Analysis and Objection Tracking (运动 分 析 和 目标 跟踪 ); 

* Image Analysis (图 像 分 析 ); 

€ Structural Analysis (结构 分 析 ) ; 

e Object Recognition (目标 识别 ) ; 

e 3D Reconstruction (三 维 重建 ) 。 

OpenCV 的 出 现 ， 给 学 习 和 开发 带 来 了 极 大 的 方便 。 在 研究 和 学 习 上 ， 可 以 有 更 多 的 时 
间 和 精力 来 研究 算法 本 身 ， 而 不 是 把 大 量 的 时 间 和 精力 花费 在 如 何 编程 实现 这 个 算法 上 ， 降 
低 了 系统 实现 难度 。OpenCV 在 图 像 处 理 中 有 类 似 于 MATLAB 的 封装 功能 ， 比 如 对 于 图 像 二 
值 化 操作 ， 只 需 调 用 cvCviColor (sre, dst, CV_ RGB2YCrCb) 一 个 函数 。 在 应 用 开发 上 ， 
OpenCV 为 开发 数字 图 像 处 理 和 计算 机 视觉 领域 的 应 用 程序 提供 了 功能 完善 、 使 用 方便 的 接 
口 ， 而 且 对 应 用 开发 无 论 是 从 商业 用 途 还 是 非 商 业 用 途 来 说 ，OpenCV 都 是 免费 的 ， 从 而 避 
免 受 版 权 问 题 的 困扰 。 
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2. 基于 Haar 特征 的 人 脸 检 测算 法 的 实现 

(1) 分 类 器 的 训练 

1) 样本 收集 ， 包 括 非 人 脸 图 像 和 人 脸 图 像 的 训练 样本 、 非 人 脸 和 人 脸 的 测试 图 像 。 非 
人 脸 图 像 的 样本 越 多 越 好 (5000 ~ 10000 张 ) ， 人 脸 图 像 6000 张 。 并 且 对 样本 进行 灰 度 化 、 
归 一 化 (20x20 像素 左右 ) 处 理 。 

2) 确定 弱 分 类 器 的 0; 等 于 该 特征 在 所 有 样本 上 的 特征 值 的 和 除 以 总 样本 数 ， 表 示 一 种 
平均 的 特征 值 。 如 果 该 样本 在 所 有 非 人 脸 样 本 上 的 平均 特征 值 大 于 在 人 脸 样 本 上 的 平均 特征 
值 ， 那 么 户 取 -1， 反 之 取 1。 

3) 确定 强 分 类 器 的 最 大 误 检 率 . 记 . 和 最 小 检测 率 du ， 以 及 此 强 分 类 器 的 弱 分 类 器 个 
数 。 根 据 AdaBoost 算法 循环 ， 每 次 添加 一 个 弱 分 类 器 ， 同 时 修改 权 值 。 直 至 满足 太 . 和 di, o 
一 般 来 说 ， 强 分 类 器 的 个 数 不 少 于 20 个 。 

4) 构造 层 倒 分 类 避 ， 把 拥有 较 高 检测 率 的 强 分 类 避 放 在 前 几 层 ， 就 能 快速 排除 大 量 非 
人 脸 区 域 ， 加快 检测 速度 。 

OpenCV 中 提供 了 对 特征 和 分 类 器 的 结构 体 定义 ， 并 且 对 最 终 的 分 类 器 格式 也 作 了 规 
定 ， 存 储 成 一 个 XML 文件 。 我 们 最 终 训练 的 分 类 器 只 要 满足 OpenCV 所 要 求 的 格式 ， 那 么 
就 可 以 使 用 OpenCV 提供 的 目标 检测 算法 来 检测 人 脸 。 

(2) 基于 OpenCV 的 人 脸 检 测 ”在 这 个 过 程 中 ,用 到 的 就 是 OpenCV 中 的 几 个 函数 ， 其 
步骤 是 : 为 检测 到 的 可 能 人 脸 区 域 分 配 内 存 ， 加 载 进 入 训练 好 的 利用 Haar 的 级 联 分 类 器 ， 
检测 图 像 中 的 人 脸 ， 主 要 用 到 了 以 下 三 个 函数 : 

1) storage face = cvCreateMemStorage (0); // 用 于 分 配 内 存 。 

2) cvLoadHaarClassifierCascade// 用 于 从 文件 中 装载 训练 好 的 利用 Haar 特征 的 级 联 分 类 
器 ， 或 者 从 OpenCV 中 肯 入 的 分 类 器 数据 库 中 导入 。 这 个 数值 是 在 训练 分 类 器 时 就 确定 好 
的 ， 修 改 它 并 不 能 改变 检测 的 范围 或 精度 。 

现在 的 目标 检测 分 类 器 通常 存储 在 XML 文件 中 (OpenCV 训练 好 的 ) 。 从 文件 中 导入 分 
类 器 ， 可 以 使 用 以 下 cvLoad 函数 : 
cascade | face = (CvHaarClassifierCascade * ) cvLoad ("人 脸 模 型 
\\ haarcascade_ frontalface | alt2. xml", 0, 0, 0 ); 

其 中 : 

cascade_ face : harr 分 类 器 级 联 的 内 部 标识 形式 

Cascade; 是 结构 体 ， 结 构 是 一 个 层次 级 联 的 形式 ， 参 见 下 面 : 
Stagel : 

Classifierl 1 : 

Featurell 

Classifierl2 ; 

Feature12 










































































Stage2 : 
Classifier21 : 
Feature21 
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3) CvSeq * faces = cvHaarDetectObjects ( small_ img, cascade_ face, storage | face, 1.1, 
2, 0, evSize (50, 50)); 

其 中 : 

small_ img : 被 检 图 像 

cascade face; 函数 2) 中 装载 入 的 。 

storage face: 函数 1) 申请 的 用 来 存储 检测 到 的 一 序列 候选 目标 矩形 框 的 内 存 区 域 。 

1.1 为 参数 scale_ factor 的 值 ，2 为 参数 min neighbors 的 值 ，0 为 参数 flags 的 值 。scale_ 
factor: 在 前 后 两 次 相继 的 扫描 中 ， 搜 索 窗 口 的 比例 系数 。 例 如 1.1 指 将 搜索 窗口 依次 扩大 
10% 。 

min_ neighbors; 构成 检测 目标 的 相 邻 矩形 的 最 小 个 数 〈 默 认 值 为 -1) 。 如 果 组 成 检测 
目标 的 小 矩形 的 个 数 和 小 于 min_ neighbors - 1 都 会 被 排除 。 如 果 min_ neighbors 为 0, Jil PK 
数 不 做 任何 操作 就 返回 所 有 的 被 检 候 选 矩 形 框 ， 这 种 设 定 值 一 般 用 在 用 户 自 定义 对 检测 结果 
的 组 合 程序 上 。 

flags: 操作 方式 。 当 前 唯一 可 以 定义 的 操作 方式 是 CV_ HAAR_ DO_ CANNY — 
PRUNING, WR BBE, PRCA AY Canny 边缘 检测 器 来 排除 一 些 边缘 很 少 或 者 很 多 的 图 像 
区 域 ， 因 为 这 样 的 区 域 一 般 不 含 被 检 目 标 。 人 脸 检测 中 通过 设 定 阀 值 使 用 了 这 种 方法 ， 并 因 
此 提高 了 检测 速度 。 

cvSize (50, 50): 设 定 参数 min size, 

min size: 检测 窗口 的 最 小 尺寸 。 默 认 的 情况 下 被 设 为 分 类 器 训练 时 采用 的 样本 尺 才 
(人 脸 检 测 中 默认 值 是 20 x 20) 。 

函数 cvHaarDetectObjects 使 用 针对 某 目 标 物体 训练 的 级 联 分 类 器 在 图 像 中 找到 包含 目标 
物体 的 矩形 区 域 ， 并 且 将 这 些 区 域 作 为 一 序列 的 矩形 框 返 回 。 函 数 以 不 同比 例 大 小 的 扫描 窗 
口 对 图 像 进行 几 次 搜索 (察看 cvSetImagesForHaarClassifierCascade ) 。 每 次 都 要 对 图 像 中 的 这 
iE ER DX dA cvRunHaarClassifierCascade 进行 检测 。 有 时 候 也 会 利用 革 些 继承 
(Heuristics) 技术 ， 以 减少 分 析 的 候选 区 域 ， 例 如 利用 Canny 裁减 (Prunning) 方法 。 函 数 
在 处 理 和 收集 到 候选 的 方 框 〈 全 部 通过 级 联 分 类 器 各 层 的 区 域 ) 之 后 ， 接 着 对 这 些 区 域 进 
行 组 合 ， 并 且 返 回 一 系列 各 个 足够 大 的 组 合 中 的 平均 矩形 。 调 节 程 序 中 的 默认 参数 (scale_ 
factor 21. 1, min_ neighbors =3, flags =0) 用 于 对 目标 进行 更 精确 同时 也 是 耗 时 较 长 的 进 一 
步 检测 。 为 了 能 对 视频 图 像 进行 更 快 的 实时 检测 ， 参 数 设置 通常 是 : scale_ factor 2 1.2, min 
_ neighbors = 2, flags = CV HAAR_ DO... CANNY_ PRUNING, min, size = < minimum 
possible face size > (例如 , 对 于 视频 会 议 的 图 像 区域 )。 

检测 效果 如 图 94 所 示 。 

实验 证 明 ， 这 种 人 脸 检 测 的 方法 受 光 照 的 影响 很 小 ， 不 受 类 肤色 模型 的 影响 。 

(3) 人 了 眼 的 检测 ”人 上 脸 检 测 之 后 ， 用 和 人 上 脸 检测 相同 的 方法 实现 人 了 眼 的 检测 ， 在 人 眼 
检测 时 ， 为 了 实时 性 ， 我 们 也 采用 了 相关 的 优化 ， 根 据 人 眼 在 人 脸 的 位 置 特 点 ， 在 左 脸 上 半 
部 分 搜索 左 眼 ， 在 右 脸 上 半 部 分 搜索 右 眼 ， 一 开始 我 们 是 直接 在 整个 人 脸 区 域 来 搜索 人 眼 ， 
后 来 发 现 左 右 眼 容易 重 礁 ， 搜 索 易 出 错 ， 然 后 才 改进 在 左 脸 搜 索 左 眼 ， 在 右 脸 搜 索 右 眼 ， 发 
现 这 样 做 识别 效果 很 好 。 

左 眼 只 在 检测 到 的 人 脸 图 像 的 左 半 脸 进行 搜索 和 检测 ， 右 眼 只 在 检测 到 的 人 脸 图 像 的 右 
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图 94 系统 最 终 效果 图 
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半 脸 进行 搜索 和 检测 ， 这 样 加 快 了 速度 ， 并 且 杜 绝 了 对 复杂 背景 图 像 中 类 眼睛 的 误 检 测 和 左 
右 眼 的 相互 影响 ， 通 过 以 下 的 函数 设置 在 左 半 脸 感 兴趣 的 区 域 : 
cvCreateImage (cvSize ( rect_ face. width / 2, rect_ face. height / 2), 8,3 ); 


cvSetImageROI (img, lr); 
cvCopy (img, left_ img) ; 
在 左 半 脸 调用 下 面 的 函数 检测 左 眼 : 


detect_ and_ draw_ eye (left_ img, rect_ leye, cascade_ leye, storage_ leye) ; 


检测 右 眼 的 方法 和 左 眼 的 类 似 。 人 有 眼 的 检 
测 效 果 如 图 94 所 示 ， 其 中 十 字 交 叉 就 是 人 有 眼 
的 定位 效果 。 

该 系统 中 检测 人 眼 的 目的 是 为 了 人 脸 图 像 
的 自动 采集 ， 从 而 提高 人 脸 识 别 系 统 的 性 能 ， 
当 检 测 到 人 有 眼 ， 并 且 左 右 眼 基本 水 平时 ， 就 把 
当前 帧 图 像 采集 下 来 ， 显 示 在 人 脸 识 别 系统 的 
右边 ， 可 以 点 击 保存 ， 存 入 数据 库 ， 对 人 脸 表 
情 有 很 大 变化 和 脸 部 有 遮挡 物 的 图 像 ， 可 以 选 
择 放弃 。 

3. 基于 EHMM 的 人 脸 识别 算法 的 实现 

(1) 建立 EHMM 人 脸 模 型 根据 人 脸 的 
五 官 特征 顺序 ， 我 们 采用 简化 的 EHMM 来 描 
述 人 脸 ， 人 脸 的 EHMM 如 图 9-5 Stas, 与 一 维 
隐 马 尔 可 夫 模 型 相对 应 的 五 个 状态 变 成 超 状 
态 。 超 状态 模型 表示 的 是 人 脸 的 垂直 方向 上 的 
图 像 信 息 ， 同 时 舱 入 状态 模型 表示 的 是 人 脸 水 
平方 向 的 信息 。 超 状态 之 间 的 转移 关系 按照 从 
上 向 下 在 相 邻 两 个 超 状 态 之 间 进 行 。 
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图 9-5 人 脸 的 EHMM 





在 进行 EHMM 人 脸 识 别 之 前 ， 从 上 到 下 的 超 状 态 数目 选取 、 瞬 入 状态 的 状态 数目 选取 、 
状态 的 转移 概率 矩阵 选取 以 及 由 HMM 产生 的 观察 序列 选取 ， 对 人 脸 识别 是 很 必要 的 。 该 系 
统 选 定额 尖 、 了 眼睛 、 锚 子 、 嘴 巴 和 下 巴 这 五 个 显著 区 域 隐 含 着 的 抽象 状态 来 表示 人 脸 从 上 到 
下 的 五 个 主要 信息 区 域 。 肯 入 状态 的 状态 数 选取 主要 考虑 在 给 定 的 超 状态 中 ， 从 左 到 右 想 要 
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这 些 状态 数 相 加 便 得 到 共 24 个 子 状态 。 








确定 了 EHMM 结构 之 后 ， 下 一 个 问题 就 是 如 何 表示 每 个 状态 。 实 验 中 ， 每 个 状态 的 密 
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函数 可 采用 包含 一 个 或 多 个 分 量 的 混合 高 斯 密度 函数 来 表示 。 
(2) 观察 向 量 的 提取 ”首先 把 人 脸 图 像 划 分 为 图 像 块 ， 形 成 图 像 块 序列 ， 然 后 取 每 一 
图 像 块 内 像素 点 的 灰 度 值 或 其 变换 系数 组 成 一 个 观察 向 量 ， 从 而 形成 观察 向 量 序列 。 该 系 
统 中 ,图像 块 采用 遍历 方法 进行 采样 ， 就 是 在 人 脸 图 像 平面 上 用 一 个 大 小 为 L, x L, 的 采样 








窗 ， 从 左 到 右 、 从 上 向 下 采样 ， 相 邻 窗口 在 垂直 方向 和 水 平方 向 分 别 有 P, 行 、P, IER, 


来 获取 观察 图 像 块 。 














如 果 直接 取 和 采样 窗 内 图 像 块 的 像素 点 灰 度 值 构造 观察 向 量 ， 则 存在 下 述 问 题 : 第 一 ， 观 
察 向 量 维 数 太 大 ， 计 算 分 析 量 太 大 : 第 二 ， 像 素 灰 度 值 对 光照 条 件 变 化 、 视 点 变迁 以 及 其 他 
噪声 干扰 影响 太 人 敏感 。 该 系统 中 ， 观 察 向 量 由 图 像 块 的 二 维 离散 余弦 变换 (2D-Discrete 
Cosine Transform, 2D-DCT) 系数 构成 ， 因 为 2D-DCT 的 结果 是 能 量 分 布 向 低频 成 分 集中 ， 变 
换 后 能 量 集中 在 左上 角 ， 对 应 于 2D-DCT 低频 系数 ， 因 此 只 取 2D-DCT 左上 角 的 低频 系数 组 











成 观察 向 量 ， 就 可 以 表示 人 脸 的 主要 特征 。 由 采样 图 
像 块 的 2D-DCT 低频 系数 构造 观察 向 量 可 以 降低 对 噪 
声 和 光照 变化 的 敏感 度 ， 受 图 像 姿 态 的 影响 也 较 小 ， 
另外 很 重要 一 点 就 是 减少 了 观察 向 量 的 维 数 ， 计 算 量 
大 大 降低 了 。 

(3) EHMM 的 训练 和 人 脸 识 别 ”EHMM 的 训练 和 
人 脸 识 别 的 流程 是 和 HMM 的 基本 相似 的 ， 现 简单 介 
绍 其 流程 。 

1) 训练 : 人 脸 识别 的 EHMM 训练 用 的 是 概率 最 
大 可 能 性 评估 标准 ，EHMM 的 训练 与 一 维 HMM 训练 
的 过 程 相 类 似 ， 其 目的 就 是 要 为 每 一 个 人 确定 一 组 经 
过 优化 了 的 EHMM 参数 。 每 个 模型 用 多 幅 图 像 进行 训 
练 ， 可 以 表示 一 个 人 的 多 个 版 本 ， 如 不 同 的 表情 、 姿 
态 、 有 无 戴 眼 镜 等 。 训 练 的 流程 如 图 9-6 所 示 ， 计 算 
按 以 下 步骤 进行 : 

QD 预 处 理工 作 ， 包 括 几 何 尺 寸 归 一 化 处 理 、 灰 度 
均衡 等 ， 形 成 训练 图 像 。 

对 人 脸 图 像 进行 采样 ， 并 对 每 个 采样 窗 进 行 
2D-DCT， 由 2D-DCT 系数 构成 观察 向 量 序 列 。 

ORE EHMM 的 超 状 态 数 和 每 一 个 超 状 态 中 授 入 
子 HMM 的 状态 数 。 该 系统 超 状 态 取 5 个 ， 子 状态 序 
列 取 (3, 6, 6, 6, 3) ， 共 24 个 子 状态 。 

@ 根 据 超 状态 的 个 数 和 每 个 超 状 态 内 相 入 状态 的 
个 数 以 及 模型 的 结构 ， 将 人 脸 均 匀 分 割 : 首先 ， 将 人 
脸 在 垂直 方向 分 割 成 Nu 个 超 状态 ; 然后 ， 将 属于 这 个 
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超 状 态 的 数据 从 左 到 右 均 匀 分 割 成 Ni 个 嵌入 状态 ， 分 别 与 子 状态 相对 应 。 

鸟 根 据 状 态 数 和 图 像 均 匀 分 割 后 得 到 的 观察 向 量 ， 初 始 化 EHMM 参数 。 通 过 双重 骨 
的 Viterbi 算法 ,对 图 像 重新 进行 分 割 。 

(6)H] Baum-Welch 算法 重 佑 模型 参数 。 

GO 当前 后 两 次 的 欠 代 误差 小 于 某 个 浆 值 时 ， 和 迭代 停 止 ，EHMM 训练 完毕 。 

对 于 连续 隐 马 尔 可 夫 模 型 ， 某 个 状态 7 的 观察 概率 密度 是 由 高 斯 概率 密度 函数 的 均值 向 
量 和 方差 向量 来 表征 的 。 如 有 果 采 用 有 具有 以 个 分 量 的 混合 高 斯 概率 密度 函数 ， 则 需要 用 天 均 
值 法 将 所 有 跟 状态 j 有 关 的 观测 向 量 聚 类 履 成 类 ， 每 类 分 别 求 其 均值 和 方差 矩阵 ， 作 为 各 个 
高 斯 分 量 的 均值 和 方差 。 采 用 混合 高 斯 概率 密度 函数 要 优 于 采用 单一 高 斯 概率 密度 函数 。 

2) 识别 : 人 脸 识别 时 ， 首 先 由 待 识别 人 脸 图 像 构造 观察 向 量 序列 ， 然 后 计算 每 一 个 训 
练 模型 产生 该 序列 的 最 大 似 然 值 ， 具 有 最 大 似 然 值 的 模型 即 为 待 识别 人 脸 图 像 所 属 对 象 。 人 
脸 识别 流程 如 图 9-7 所 示 ， 可 以 用 下 列 公 式 表 示 : 

P(O®W | An) = maxP(O™ | A,) (9-7) 


RE m 个 模型 A, 产生 序列 O” BYTE AL, WME ENR k LASS m 
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图 9-7 EHMM 人 脸 识别 
最 终 的 识别 结果 如 图 94 所 示 。 图 94 右边 图 片 中 ， 下 方 输出 的 字符 串 表 示 识 别 的 结 
果 ， 识 别 正 确 。 在 实验 室 条 件 下 ， 采 集 10 个 人 ， 每 人 10 张 人 脸 图 像 ， 每 人 每 张 图 像 的 人 脸 
旋转 范围 在 3" 之 内 ， 其 中 5 张 有 中 度 的 表情 变化 ， 该 系统 把 每 人 的 前 5 张 图 像 作为 样本 进行 
训练 ， 每 人 剩余 的 5 张 图 像 作为 测试 图 像 ， 识 别 48 张 正 确 ， 识 别 率 达 96% 。 
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4510 5€ 面部 表情 识别 系统 


表情 识别 同样 遵循 传统 的 模式 识别 问题 的 框架 ， 其 流程 如 图 10-1 所 示 。 





































到 像 预 处 理 














分 类 判别 


图 10-1 表情 识别 的 一 般 流 程 
其 中 ， 各 个 步骤 的 具体 工作 包括 : 
(1) 图 像 获取 ”通过 摄像 头等 图 像 捕 捉 工 具 ， 获 取 静 态 图 像 或 动态 图 像 序列 。 
(2) 图 像 预 处 理 图像 的 大 小 和 灰 度 的 归 一 化 ， 头 部 姿态 的 矫正 ， 图 像 分 割 等 。 
(3) 特征 提取 将 点 阵 转 化 成 更 高 级 别 的 图 像 表 述 一 一 形状 、 运 动 、 颜 色 、 纹 理 、 空 
间 结 构 。 
(4) 分 类 包括 训练 (分 类 器 设计 阶段 ) 和 分 类 判别 。 根 据 心理 学 对 于 不 同人 种 表情 











的 普遍 性 和 共同 性 的 研究 ， 目 前 的 分 类 结果 一 般 分 为 七 类 : PERIE ÆA, DOE. MR. 
HC. AA 


本 章 通 过 两 个 面部 表情 系统 : 基于 静态 图 像 的 表情 识别 系统 和 实时 的 表情 识别 系统 。 详 
细 介 绍 了 表情 识别 系统 的 设计 与 实现 流程 。 此 外 ， 还 介绍 了 基于 动态 图 像 序列 的 面部 表情 识 
别 方法 。 





10.1 概述 


表情 识别 相对 于 人 脸 检 测 和 识别 而 言 ， 出 现 得 相对 较 晚 ， 所 以 它 从 一 开始 就 利用 了 人 上 脸 
检测 和 识别 的 很 多 现 有 方法 。 常 用 的 表情 识别 方法 有 : 

1. 基于 几何 特征 的 识别 方法 

在 众多 表情 识别 的 方法 中 ， 基 于 几何 特征 的 方法 是 运用 比较 多 的 方法 之 一 。 由 于 人 的 眼 
睛 、 嘴 、 丑 毛 以 及 脸颊 含有 丰富 的 表情 信息 ， 因 此 这 些 部 位 的 特征 点 可 作为 重要 的 分 类 依 
据 。 在 识别 过 程 中 ， 首 先 检 测 出 这 些 特 征 点 ， 然 后 将 这 些 特 征 点 之 间 的 距离 作为 特征 向 量 进 
行 识别 。 另 外 ， 眼 睛 、 嘴 等 部 位 的 长 度 和 宽度 以 及 眉毛 的 弯曲 程度 ， 还 有 特征 点 之 间 的 相互 
位 置 和 形状 ， 都 可 以 用 来 作为 特征 向 量 ， 最 后 将 这 些 可 以 描述 人 脸 表 情 变化 的 特征 向 量 综合 
起 来 构成 一 个 几何 特征 向 量 组 ， 并 以 此 为 依据 进行 识别 。Y. L. Tian 对 于 选 定 的 特征 点 分 别 
测量 他 们 之 间 的 距离 ， 并 以 此 作为 表情 的 特征 向 量 。 此 外 ， 模 板 匹配 的 方法 也 是 一 种 重要 的 
基于 几何 特征 的 识别 方法 ， 其 中 又 以 动态 模板 最 为 常用 。 动 态 模 板 是 参数 化 的 简单 图 元 模 
型 ， 根 据 先 验 知识 定义 的 能 量 函数 及 相应 的 图 像 约束 条 件 ， 指 导 其 收敛 过 程 ， 主 要 用 于 提取 
眼睛 和 嘴巴 的 轮廓 。 
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由 于 成 年 人 的 表情 变化 很 大 ， 即 使 是 同一 个 人 的 面部 图 像 ， 由 于 光照 、 摄 像 机 角度 等 的 
不 同 ， 也 会 有 很 大 差异 ， 很 难 用 同一 个 模式 来 表达 。 不 过 ， 由 于 现在 各 种 优秀 的 特征 提取 算 
法 〈 如 动态 模板 算法 、 活 动 轮廓 算法 等 ) 的 提出 ,使 得 人 脸 的 几何 特征 描述 越 来 越 充 分 ， 
因而 在 表情 识别 方面 ， 基 于 几何 特征 的 识别 方法 仍然 是 比较 有 效 的 。 

2. 基于 代数 特征 的 识别 方法 

相对 于 几何 特征 来 说 ， 人 脸 图 像 的 代数 特征 蕴含 了 极 大 的 信息 量 ， 它 虽然 不 如 几何 特征 
直观 ， 但 是 由 于 它 反映 了 图 像 的 本 质 ， 因 此 很 多 研究 人 员 都 试图 用 代数 的 方法 解决 表情 识别 
问题 。 基 于 代数 特征 的 方法 中 ， 应 用 最 广泛 的 就 是 主 元 分 析 (PCA) 方法 。 主 元 分 析 就 是 要 
找到 一 个 正 交 的 维 数 空间 来 说 明 数 据 中 变化 的 主要 方向 ， 而 坐标 轴 就 成 了 称 之 为 Holons 和 
Eigenfaces 的 近似 人 脸 的 模板 图 像 轴 。 赵 力 庄 等 人 将 Eigenface 多 子 空间 分 类 方法 用 于 面部 表 
情 识别 ; 针对 传统 多 子 空间 分 类 方法 中 的 问题 和 缺点 ， 提 出 了 两 种 变 维 分 类 方法 一 一 静态 变 
维 分 类 方法 和 动态 变 维 分 类 方法 。 程 永 清 等 人 从 代数 理论 导出 矩阵 的 相似 度 概 念 ， 由 此 构造 
一 种 抽取 图 像 特征 的 相似 性 判别 函数 , 提出 一 套 基 于 图 像 相似 性 判别 函数 的 特征 抽取 和 识别 
方法 。 此 外 ， 还 有 利用 和 矩阵 的 奇异 值 分 解 (SVD) 进行 特征 提取 ， 这 种 方法 具有 稳定 性 、 转 
置 不 变性 、 位 移 不 变性 和 镜像 变换 不 变性 等 特点 。 以 上 这 些 方 法 在 人 脸 识 别 和 表情 识别 领域 
都 得 到 了 广泛 的 应 用 。 

3. 基于 连接 机 制 的 识别 方法 

基于 连接 机 制 的 识别 方法 在 人 脸 及 表情 识别 领域 中 也 得 到 了 很 好 的 应 用 ， 有 人 利用 神经 
网 络 的 学 习 能 力 及 分 类 能 力 ， 将 人 脸 直 接 用 灰 度 图 (二 维和 矩阵 ) 表征 ， 并 送 入 神经 网 络 分 
类 器 中 。 这 种 方法 的 优势 在 于 保存 了 人 脸 图 像 中 的 材质 信息 及 细微 的 形状 信息 ， 同 时 避免 了 
较为 复杂 的 特征 提取 工作 。Kohonen 率先 运用 自 相关 记忆 (全 互 连 神经 网 络 ) 存储 和 重建 人 
脸 图 像 。 利 用 简单 Hebbian JE, 人 脸 图 像 的 自 相关 记忆 将 被 创建 ， 并 存储 在 全 互 连 神经 
网 络 的 权 值 中 。 实 验 表 明 , 在 噪声 存在 ， 甚 至 人 脸 图 像 被 部 分 遮挡 的 情况 下 , 该 网 络 能 有 效 
地 重建 人 脸 图 像 。 这 表明 了 自 相 关 神 经 元 具有 识别 能 力 。Millward 和 0 Toole 利用 的 则 是 
Widrow-Hoff 学 习 律 ， 同 样 证 明了 自 相 关 神 经 元 具有 识别 能 力 。Cottrell 和 Fleming 采用 了 不 
同 的 网 络 拓扑 结构 一 一 非 线 性 前 馈 神 经 网 络 。 该 网 络 经 BP 算法 训练 后 ， 用 于 人 脸 灰 度 图 像 
的 识别 。 马 里 兰 大 学 动画 研究 中 心计 算 机 视觉 实验 室 的 Rosenblum 设计 了 一 种 基于 RBF 网 
络 结构 的 表情 识别 系统 ， 在 分 析 和 解释 运动 模式 时 ,采用 了 针对 六 种 不 同 表情 分 别 训练 后 的 
RBF 网 络 。 

4. 频率 域 特征 

常用 的 一 种 频率 域 特征 是 Gabor 小 波 。 它 是 一 组 窄带 带 通 滤波 器 ， 在 空间 域 和 频率 域 均 
有 较 好 的 分 辨 能力， 有 明显 的 方向 选择 和 频率 选择 特性 。 和 传 里 叶 变 换 相 比 ， 表 情 图 像 的 
Gabor 小 波 分 解 是 一 种 局 部 变换 ， 因 此 某 一 局 部 测度 的 范围 可 以 由 Gabor 小 波 滤波 器 的 尺度 
大 小 来 定义 。Ye Jingfu 等 人 对 人 脸 图 像 进行 表情 区 的 分 制 和 归 一 化 ， 然 后 用 小 波 变换 提取 表 
情 区 的 特征 向 量 ， 最 后 识别 了 在 不 同 光 照 下 的 六 种 表情 。 他 们 的 实验 证 明 小 波 特 征 对 于 光线 
变化 和 个 体 差 异 是 不 明显 的 。 

5. 基于 隐 马 尔 科 夫 模 型 的 识别 方法 

隐 马 尔 科 夫 模型 (HMM). 用 概率 统计 的 方法 来 描述 时 变 信 号 过 程 ， 具 有 十 分 健壮 的 数 
学 结构 ， 适 用 于 动态 过 程 时 间 序 列 建 模 ， 并 具有 强大 的 时 序 模式 分 类 能 力 ， 理 论 上 可 处 理 任 
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意 长 度 的 时 序 ， 它 为 HMM 提供 了 一 个 非常 广泛 的 应 用 范围 。 目 前 ，HMM 已 经 成 功 地 用 于 
语音 识别 和 手势 识别 ， 而 人 脸 识 别 和 表情 识别 是 HMM 的 又 一 个 新 的 应 用 领域 。 

一 个 HMM 模型 由 两 个 随机 过 程 组 成 ， 一 个 是 马尔 科 夫 链 ， 由 初始 状态 分 布 概率 7 = 
(m) 和 转移 概率 矩阵 4 = (a) 描述 ， 输 出 为 状态 序列 ， 但 是 这 个 输出 序列 隐藏 在 模型 
中 ; 男 一 个 随机 过 程 由 B= ib (0)} 描述 ， 输 出 为 观察 序列 ， 但 不 一 定 是 马尔 科 夫 过 程 ， 
这 也 是 HMM 名 称 的 由 来 "1。 人 的 面部 表情 图 像 序列 的 特点 同人 的 语音 序列 特点 一 样 ， 是 
有 时 间 顺 序 的 、 不 可 逆 过 程 ， 因 而 在 表情 识别 过 程 中 一 般 采 用 无 跨越 从 左 到 右 的 HMM。 金 
辉 等 采用 隐 马 尔 科 夫 的 方法 对 表情 进行 分 类 ， 在 对 HMM 进行 训练 时 ,设计 眼 部 七 种 、 嘴 部 
七 种 共 十 四 种 HMM， 把 各 种 表情 的 眼 部 和 嘴 部 的 HMM 分 开 训 练 ， 这 样 就 可 以 提高 对 混合 
表情 的 辨识 能 力 。 实 验 结果 表明 ，HMM 在 分 析 时 序 过 程 中 ， 速 度 和 识别 结果 都 是 非常 理想 
的 , 与 静止 的 单 帧 表情 图 像 识 别 相 比 ， 动 态 时 序 分 析 的 HMM 的 表情 识别 方法 不 论 在 理论 与 
实验 上 都 取得 了 显著 的 效果 。 尹 星云 等 人 根据 HMM 的 基本 理论 和 算法 设计 了 一 个 人 脸 表 情 
识别 系统 。 该 系统 由 两 层 HMM 组 成 : 低层 由 六 个 HMM 组 成 ， 分 别 对 应 六 种 特定 表情 ， 人 
脸 表 情 特征 向 量 进 入 系统 后 ， 经 过 底层 HMM 初步 识别 ， 其 结果 组 成 高 层 HMM 的 观察 向 量 ， 
经 过 高 层 HMM 解码 ， 确 认 出 表情 ， 从 而 提高 了 系统 的 识别 率 ， 增 强 了 系统 的 健壮 性 。 
Hadid 和 Pietikainen 将 HMM 方法 与 PCA 方法 进行 了 比较 ， 试 验 结果 表明 ， 如 果 输 入 的 图 像 
序列 中 包含 的 帧 数 比 较 多 ， 那 么 HMM 方法 识别 率 明显 高 于 后 者 ， 但 随 着 序列 图 像 中 帧 数 的 
WW, HMM 方法 的 识别 率 将 明显 下 降 ; 另外 ， 如 果 用 于 识别 的 图 像 的 分 状 率 不 断 降低 的 话 ， 
PCA 方法 的 识别 率 会 大 大 下 降 ， 而 HMM 方法 的 识别 率 则 没有 那么 敏感 。 

6. 运动 特征 

上 面 介 绍 的 特征 提取 方法 是 针对 静态 图 像 或 者 动态 图 像 序列 中 的 某 一 帧 进行 的 。 然 而 表 
情 识别 的 最 大 特点 是 ， 它 是 一 个 动态 变化 的 过 程 ， 心 理学 研究 表明 ， 尽 管 人 类 可 以 依据 一 幅 
静态 图 像 判 别 其 中 的 人 脸 表 情 ， 但 是 大 部 分 实验 者 在 识别 对 动态 序列 图 像 的 表情 时 ， 准 确 率 
明显 增高 。 可 见 提取 动态 图 像 序列 的 运动 特征 ， 对 于 表情 识别 有 着 特殊 的 意义 。 

光 流 是 指 亮度 模式 引起 的 表面 运动 ， 是 景物 中 可 见 点 的 三 维 速 度 向 量 在 成 像 平面 上 的 投 
影 ， 它 表示 了 景物 表面 上 的 点 在 图 像 中 位 置 的 瞬时 变化 ; 同时 光 流 场 携 带 了 有 关 运 动 和 结构 
的 丰富 信息 。 光 流 模型 就 是 处 理 运 动 图 像 的 有 效 方法 ， 其 基本 思想 是 将 运动 图 像 函 数 f(x， 
y,t) 作为 基本 函数 ， 根 据 图 像 强度 守恒 原理 建立 光 流 约束 方程 ， 通 过 求解 光 流 约束 方程 ， 
计算 运动 参数 。Y. Dai 等 人 利用 图 像 序列 中 连续 两 帧 的 差异 以 及 YIQ 表示 空间 中 的 工分 量 相 
结合 ， 提 取出 人 脸面 部 的 运动 和 区 域 信息 ， 在 嘴 部 和 眼 部 的 光 流 投影 直方 图 中 ， 提 取出 了 面 
部 表情 的 运动 特征 ， 用 以 表情 识别 。 

对 输入 的 人 脸 图 像 ， 外 界 的 干扰 因素 一 般 是 比较 多 的 ， 采 用 灰 度 不 守恒 的 光 流 场 基本 方 
程 显 得 更 合适 与 可 靠 。 实 验 表明 ， 该 方程 具有 计算 精度 高 、 易 于 实现 等 优点 ， 有 一 定 的 实用 
价值 。 而 且 用 光 流 计算 的 方法 提取 其 运动 特征 ， 一 方面 反映 了 表情 的 变化 实质 ， 另 一 方面 特 
征 受 光照 不 均匀 性 的 影响 较 小 ， 只 要 保证 在 同一 组 图 像 序列 中 光照 强度 基本 不 变 即 可 ， 光 有 照 
条 件 对 各 组 之 间 的 影响 较 小 。 
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10.2 基于 静态 图 像 的 面部 表情 识别 系统 


在 计算 机 面部 表情 识别 研究 中 ， 尽 管 相继 提出 了 一 些 特征 提取 和 识别 方法 ,但 主要 还 处 
在 算法 研究 阶段 ; 由 于 人 脸 不 是 刚体 ， 很 难 建 模 ， 再 加 之 受 硬 件 约束 、 环 境 条 件 对 图 像 质量 
的 影响 等 ， 人 脸 识别 从 技术 的 成 熟 程度 来 讲 ， 都 很 难 在 短 时 间 内 蔡 代 指 纹 识别 技术 作为 吴 份 
唯一 性 的 鉴别 标准 ， 表 情 识 别 更 是 距离 实用 还 有 较 大 的 差距 。 从 表情 识别 的 发 展 与 研究 状况 
来 看 ， 主 要 可 以 分 为 两 类 研究 : 一 类 研究 是 对 基于 静态 图 像 〈 单 帧 图 像 ) 的 研究 ， 这 类 研 
究 只 考虑 单 帧 图 像 的 空间 信息 和 人 脸 的 几何 结构 信息 ， 干扰 较 小 ， 可 以 不 受 检测 效果 的 影 
响 ， 对 算法 的 鲁 棒 性 要 求 相对 较 低 ; 另 一 类 研究 是 对 基于 实时 动态 图 像 识别 方法 的 研究 ， 这 
类 方法 考虑 了 表情 图 像 的 运动 信息 ， 把 表情 变化 的 时 间 和 空间 信息 结合 起 来 ， 反 映 了 表情 变 
化 的 本 质 ， 更 符合 实际 应 用 的 要 求 ， 但 对 算法 的 鲁 棒 性 以 及 运行 速度 都 有 较 高 的 要 求 。 

本 节 基 于 视频 图 像 的 特点 ， 将 改进 的 主 成 分 分 析 和 支持 向 量 机 ， 应 用 于 表情 识别 系统 
中 ,设计 了 基于 静态 图 片 (通过 摄像 头 摄 取 的 视频 图 像 来 截取 图 片 ) 的 表情 识别 软件 系统 。 
该 系统 可 以 对 人 脸 图 像 进行 预 处 理 、 表 情 区 分 割 、 特 征 提取 和 识别 ， 最 终 分 类 结果 为 平静 、 
BM. GE. TEUER. ET, EAR AKER 


10.2.1 系统 的 总 体 设计 


实现 基于 图 像 处 理 的 面部 特征 提取 与 表情 识别 ， 要 考虑 到 所 使 用 的 分 类 方法 是 否 易于 编 
程 实现 、 软 件 系统 是 否 方便 应 用 ， 男 外 还 要 考虑 程序 运行 的 速度 。 为 此 ， 本 系统 采用 基于 表 
情 区 加 权 主 成 分 分 析 (WPCA) 的 特征 提取 和 识别 方法 ,表情 识别 系统 框图 如 图 10-2 所 示 。 
该 方法 的 主要 特点 是 ， 建 立 训练 模板 便捷 ， 匹 配 和 识别 容易 实现 ， 流 程 相对 简洁 。 

系统 的 设计 思想 确定 之 后 ， 就 可 以 对 系 
统 总 体 结构 进行 设计 。 系 统 主 要 分 为 两 个 部 
分 : 一 部 分 是 建立 表情 模板 ( 子 空间 ); 另 一 
部 分 是 匹配 识别 。 两 部 分 都 要 用 到 图 像 的 读 
取 、 图 像 预 处理 、 表 情 区 分 割 、 特 征 提 取 、 
匹配 识别 模块 。 对 各 部 分 介绍 如 下 : 

(1) 图 像 的 读 取 模块 ”其 中 包括 两 部 分 
图 像 的 读 取 : CMU 表情 库 中 的 图 像 和 我 们 实 
时 采集 的 面部 表情 图 像 。 

(2) 图 像 预 处 理 模块 ”对 于 人 脸 大 小 相 
同 的 灰 度 人 脸 图 像 ， 采 用 图 像 处 理 的 基本 方 
法 ， 滤 掉 噪 声 、 光 照 等 的 影响 。 

(3) 表情 区 分 割 模块 ” 先 利用 自 适 应 二 阶 拉 普 拉 斯 算 子 得 到 多 尺度 边缘 提取 图 像 ， 再 进 
行 二 值 化 ， 最 后 利用 基于 对 称 性 的 积分 投影 方法 和 人 脸 先 验 知识 分 割 表 情 区 。 

(4) 特征 提取 模块 ”该 模块 主要 利用 面部 图 像 空 间 的 相关 性 ， 提 取 图 像 的 加 权 统 计 特 
征 ， 换 句 话说， 就 是 要 得 到 映射 模板 ， 并 保存 到 表情 模板 库 中 。 

(5) 匹配 识别 模块 ”将 新 样本 映射 到 特征 空间 后 ， 通 过 计算 向 量 间 的 欧 氏 距离 ， 得 到 模 
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图 10-2 基于 表情 区 WPCA 的 表情 识别 系统 框图 
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板 间 的 相似 度 ， 最 后 应 用 最 近邻 法 进行 识别 。 
10.2.2 系统 的 算法 设计 


本 系统 提出 了 基于 多 特征 融合 的 加 权 主 成 分 分 析 方 法 ， 对 于 面部 表情 图 像 先 在 表情 区 划 
分 的 基础 上 提取 高 维 局 部 自 相 关 (HLAC) 特征 ， 再 利用 加 权 主 成 分 分 析 进 行 降 维和 特征 提 
取 ， 其 中 权 值 的 选择 除了 传统 的 优化 方法 ， 我 们 采用 了 基于 FACS 的 快速 确定 方法 。 此 外 ， 
对 于 面部 表情 图 像 识 别 面临 的 小 样本 模式 分 类 问题 ， 本 系统 尝试 用 SVM 方法 进行 分 类 ， 选 
用 RBF 核 函数 和 “一 对 多 ”的 SVM 改进 算法 。SVM 分 类 器 有 较 强 的 推广 能 力 ， 对 于 小 样本 
训练 集 分 类 问题 有 自身 的 优势 ; 但 受到 参数 选择 和 训练 速度 等 影响 ， 应 用 于 动态 表情 识别 时 
还 有 一 定 距 离 。 

1. 多 特征 融合 的 加 权 主 成 分 分 析 

统计 特征 提取 的 关键 之 一 就 是 关于 正 交 基 的 选取 问题 ， 对 整体 面部 图 像 提取 主 成 分 是 不 
是 就 能 最 好 地 表征 表情 信息 ， 仍 然 是 需要 探讨 的 。 这 里 ， 为 了 更 好 地 保留 人 脸 图 像 中 的 表情 
信息 ， 并 对 其 进行 有 效 压 缩 ， 我 们 采用 了 多 特征 融合 的 加 权 主 成 分 分 析 方 法 。 

(1) 加 权 主 成 分 分 析 的 提出 ”第 6 章 中 已 经 介绍 过 基于 KK-L 变换 的 主 成 分 分 析 的 基本 
原理 ,传统 的 主 成 分 分 析 以 寻找 最 小 化 训练 样本 的 重建 误差 的 变换 UV ( 主 成 分 分 析 的 特征 
向 量 ) 为 目标 : 


AQ) = > I Ca, + UY.) -a |? = > (Cn + UY.) - a) (Ca, + UY,) - a) 


(10-1) 


















































ZH, a, 为 训练 样本 ; Y, 为 训练 样本 的 低 维 投影 ; w = a, - (1/P) 2. dio 

但 是 ， 在 表情 识别 中 ， 人 脸 部 件 的 局 部 几何 形变 则 起 到 更 为 重要 的 作用 。 也 就 是 说 ， 面 部 

不 同 区 域 在 识别 过 程 中 起 到 的 作用 明显 不 同 ， 考 虑 到 各 维特 征 在 识别 中 所 起 的 作用 不 同 ， 可 以 

为 每 一 维特 征 指定 一 个 系数 来 代表 其 重要 程度 ， 进 而 构造 样本 x, 的 加 权重 建 误差 计算 公式 为 
J4 QU' ,x,, ) 2, il (xy + UY,) - aas 





























= X (09 + UY.) = x) WCG + UY,) -= xn) (102) 
式 中 ，W 为 权 值 对 角 阵 ，W = Diagonal [w,, w, ws, +, w], w +w, +w, + +w, n. 
接 下 来 的 目标 是 找到 变换 矩阵 U', 使 得 所 有 训练 样本 的 加 权重 建 误差 和 J; (U) 最 小 化 。 
L(OU)2EX,L(U,x)-2X,.(x, -x) (UU"-IW(UU" Dx, - x) 
(10-3) 











这 样 ， 加 权 主 成 分 分 析 的 基 也 就 是 变换 矩阵 U BY Eo 

当然 ， 可 以 通过 寻 优 的 方法 直接 计算 加 权 主 成 分 分 析 的 变换 矩阵 以 ， 不 过 这 种 方法 运 
算 比 较 麻 烦 ， 为 此 在 实际 中 ， 给 出 了 一 个 近似 算法 ， 对 于 一 定 的 权 值 对 角 阵 WW， 定 义 其 加 
权 协 方差 矩阵 为 





S = 2 (x, — xo) W(x, -= xo)" (10-4) 
可 以 使 用 加 权 协 方差 矩阵 S. 的 特征 向 量 作 为 变换 矩阵 UV'。 后 边 的 实验 也 证 明 这 种 方法 具有 
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很 好 的 效果 。 
类 似 于 主 成 分 分 析 ， 定 义 UV' 为 加 权 子 空间 的 基 ， 定义 点 * 到 加 权 子 空间 UV" 的 距离 为 
d = / | (U'U"x - x) W(U'U" x - x) | (10-5) 
同 理 ， 可 以 依据 点 x 到 加 权 子 空间 UV 的 距离 进行 分 类 。 
(2) 权 值 的 确定 ”我们 知道 ， 目 前 大 多 数 面 部 分 析 与 识别 算法 的 心理 学 和 生理 学 依据 
是 Ekman 等 人 在 1978 年 提出 的 面部 动作 编码 系统 (FACS)。 该 系统 源 自 对 面部 运动 的 解剖 
学 的 分 析 ， 能 够 测量 和 记录 所 有 可 观察 到 的 面部 行 。 它 基于 44 个 独立 动作 单元 (AU) 的 面 
部 动作 ， 以 及 一 些 头 部 和 眼睛 的 位 置 和 运动 。 
值得 注意 的 是 ，FACS 只 是 利用 解剖 学 原理 对 面部 各 部 位 进行 测量 ， 还 不 是 对 情绪 的 测 
量 ， 也 就 是 说 ， 人 情绪 的 表示 并 不 是 FACS 的 一 部 分 ， 它 是 由 一 个 单独 的 系统 进行 编码 的 。 本 
系统 为 了 进行 表情 的 分 析 和 识别 研究 ， 通 过 FACS 解释 规则 和 FACS 中 的 AU 组 合 对 各 种 表 
情 进行 建 模 ， 也 就 是 将 每 种 表情 与 AU 的 线性 加 权 相 对 应 ， 见 表 10-1, 
表 10-1 利用 FACS 对 于 基本 原型 表情 的 建 模 




























































































表情 AU 组 合 详细 描述 
生气 AU4 + AUS + AU7 + AU15 + AU24 AE (Kale + ERREI +E RE +A FE + OEE 
厌恶 AU9 + AU10 + AUI7 BE + EIR 44+ PELE 

















HECER + BUR EAA + AURE + 上 有 眼 蛤 上 抬 + 上 腿 瞪 紧 次 
+ 口 层 前 伸 + 两 层 张 开 





ZMR. |AU1 + AU2 + AU4 + AUS + AU7 + AU20 + AU25 































































































愉快 AU6 + AU12 + AU25 EME + A ff Jet + 两 层 张 开 
悲伤 AU1 + AU4 + AU7 + AU15 + AU17 SUED EA + SUA IRIE + IRI AE +A FR + PES EG 
惊讶 AUI + AU2 + AUS + AU25 + AU26 SUED LR + AAEH + ERRER + PUESKJE + FA Pe 





通过 表 10-1 中 对 不 同 表情 的 定义 ， 可 以 给 出 一 个 确定 权 值 的 简便 算法 ， 即 根据 组 成 各 
类 表情 的 AU 在 不 同 选择 面部 区 域 的 分 布 来 确定 。 例 如 对 于 生气 这 种 表情 ， 包 含 了 5 AU, 
根据 这 些 AU 的 组 合 帮 助 我 们 设 定 眉 区 、 眼 区 和 嘴 部 区 域 的 权 值 ， 经 过 归 一 化 ， 依 次 为 0.2、 
0.4, 0.4, 

(3) 特征 融合 算法 的 设计 将 特征 融合 的 思想 运用 于 表情 识别 ， 要 解决 的 主要 问题 就 
是 如 何 有 效 地 融合 面部 表情 的 几何 特征 以 及 样本 学 习 过 程 中 提取 的 统计 特征 。 需 要 特别 指出 
的 是 ， 在 本 节 之 前 ， 我 们 已 经 可 以 根据 前 面 介绍 的 基于 几何 特征 的 提取 方法 ， 有 效 地 进行 面 
部 表情 区 域 的 提取 ， 并 通过 计算 高 维 自 相关 特征 ， 得 到 各 个 表情 区 域 的 纹理 特征 ， 以 及 通过 
加 权 主 成 分 分 析 提 取 训 练 样本 的 统计 特征 来 进行 分 类 ， 将 这 三 个 步 又 有 效 地 结合 ， 就 是 我 们 
特征 融合 算法 的 基本 思路 。 总 的 来 说 ， 算 法 分 为 两 个 部 分 : 训练 算法 和 识别 算法 。 

1) 训练 算法 : 

中 给 定 一 个 面部 表情 图 像 集 ， 对 每 幅 图 像 进 行 预 处 理 ， 包 括 去 除 孤 立 的 噪声 点 以 及 灰 度 
均衡 调整 。 

@ 利 用 二 阶 拉 普 拉 斯 算 子 进行 边缘 提取 、 图 像 二 值 化 ， 利 用 对 称 性 改进 积分 投影 方法 ， 
确定 眉 、 了 眼睛 和 嘴巴 的 水 平 坐标 ， 并 根据 先 验 知识 划分 表情 区 ; 值得 注意 的 是 ， 此 时 原始 训 
练 样本 的 维 数 (图 像 的 像素 数 ) 已 经 下 降 为 表情 区 的 维 数 。 

(3) 对 三 个 不 同 表 情 区 分 别 计算 高 维 自 相关 特征 ， 并 将 其 作为 下 一 步 训练 的 样本 。 







































































(对 三 个 不 同 表 情 区 的 自 相关 特征 进行 加 权 的 K-L 变换 ， 得 到 由 前 m 个 特征 向 量 组 成 
的 加 权 变 换 矩 阵 。 

@ 将 训练 样本 集中 的 每 一 幅 图 像 进行 表情 区 分 制 和 高 维 自 相关 特征 提取 ， 通 过 加 权 变 换 
和 矩阵 映射 到 表情 空间 ， 并 求 出 每 一 类 面部 表情 图 像 在 表情 空间 的 聚 类 中 心 。 

2) 识别 算法 : 

中 对 未 知 面部 表情 

@) 利 用 边缘 提取 、 
情 区 。 

@ 对 三 个 不 同 的 表情 区 分 别 计算 高 维 自 相关 特征 ， 并 通过 加 权 变 换 和 矩阵 将 其 映射 到 表情 
空间 。 

(计算 新 的 图 像 (表情 空间 中 的 一 个 点 ) 到 表情 空间 中 各 个 聚 类 中 心 的 距离 ， 并 根据 
近邻 中 心 (Nearest Center) 分 类 天 进行 归 类 。 

2. 支持 向 量 机 表情 分 类 
具体 地 说 ， 利 用 支持 向 量 机 算法 进行 表情 分 类 需要 考虑 以 下 三 个 方面 的 问题 。 

(1) 确定 多 类 别 支 持 向 量 机 分 类 方法 ”利用 支持 向 量 机 (SVM) 算法 进行 表情 识别 ， 
首先 要 确定 如 何 将 两 类 别 分 类 方法 扩展 到 多 类 别 分 类 方法 。 假 定 多 类 别 分 类 问题 有 上 个 类 别 
S= |1, 2, «e, ki, 训练 样本 为 LG, y), i21, 2, co, DH, RP y eS. ERAUFH 
种 方法 可 实现 SVM 的 多 类 别 分 类 : —Óp aha. or 8 ARR DR ato SA 
方法 在 第 7 章 7. 2 市 中 曾经 介绍 过 。 本 系统 采用 的 是 一 对 多 分 类 器 。 它 是 用 来 构造 个 SVM 
子 分 类 器 的 。 在 构造 第 7 个 SVM 子 分 类 器 时 ， 将 属于 第 7 类别 的 样本 数据 标记 为 正 类 ， 不 属 
于 7 类 别 的 样本 数据 标记 为 负 类 。 测 试 时 ， 对 测试 数据 分 别 计算 各 个 子 分 类 器 的 判别 函数 
值 ， 并 选取 判别 函数 值 最 大 所 对 应 的 类 别 为 测试 数据 的 类 别 。 

本 系统 将 支持 向 量 机 和 最 近邻 准则 相 结 合作 为 表情 识别 的 分 类 絮 。 设 有 七 类 面部 表情 样 
本 CER BOX. ED. DUE. MR. BU. E^LO, ， 每 类 样本 都 有 一 个 对 应 的 SVM 分 类 
器 ， 将 其 与 其 他 表情 分 开 。 经 训练 所 得 的 七 个 SVM 可 以 将 面部 表情 样本 分 为 七 类 。 当 输入 
一 个 新 的 测试 样本 时 ， 该 测试 样本 由 七 个 SVM 进行 分 类 ， 会 出 现 三 种 情况 : 其 一 , 第 i 个 
SVM 将 测试 样本 判 为 第 类 ， 即 输出 为 1， 其 余 的 SVM 输出 为 -1， 则 判断 该 样本 属于 面部 
表情 库 中 的 第 i 类 表情 ; 其 二 ， 多 个 SVM 同时 输出 为 1， 此 时 应 用 最 近邻 准则 来 判断 类 别 ， 
即 计 算 这 些 SVM 对 应 的 表情 样本 与 测试 样本 的 欧 氏 距离 D = | x —y | ， 将 测试 样本 判 为 与 
其 距离 最 近 的 面部 表情 样本 ; 其 三 ， 所 有 SVM 将 测试 样本 判 为 -1， 则 判断 该 测试 样本 的 类 
别 不 属于 表情 训练 样本 库 中 类 别 。 

(2) RRE ”在 采用 支持 向 量 机 对 面部 表情 进行 分 类 时 ， 首 先 必须 对 SVM 进行 模 
型 选择 ， 即 首先 确定 核 函 数 类 型 。 

这 里 ， 选 择 RBF 核 函 数 ， 其 表达 式 为 K(xi,%j) = exp(-y lx xl ),y >0， 主 要 原 
因 有 : 

1) RBF 核 函 数 可 以 把 低 维 特征 空间 映射 到 高 维特 征 空 间 ， 通 过 引入 惩罚 项 解决 线性 不 
可 分 问题 ， 而 线性 核 函 数 主要 是 针对 线性 可 分 问题 ， 而 且 带 惩罚 项 的 线性 核 函数 是 RBF 核 
函数 的 一 种 特例 。 另 外 ，Sigmoid 核 函 数 表现 出 的 性 能 也 和 带 有 特定 参数 (C，y) 的 RBF E 
函数 性 能 等 价 。 




















像 进行 预 处理 ， 去 除 扳 立 的 噪声 点 以 及 灰 度 均衡 调整 。 
像 二 值 化 和 对 称 性 改进 积分 投影 方法 ， 确 定 周 、 有 眼睛 和 嘴巴 三 个 表 
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2) 核 函 数 参数 个 数 也 对 SVM 模型 选择 的 复杂 性 带 来 影响 ， 在 这 一 点 上 ， 选 择 RBF 核 
函数 (只 有 一 个 参数 y) 显然 要 比 选择 多 项 式 核 函数 更 方便 。 

3) 选择 RBF 核 函数 给 数字 处 理 也 将 带 来 一 定 的 方便 。 我 们 知道 ，RBF 核 函 数 是 高 斯 函 
数 ， 它 的 取 值 范围 为 (0，1) ， 对 于 多 项 式 核 ， 当 多 项 式 的 阶 次 比较 大 时 ， 其 取 值 有 可 能 趋 
向 无 穷 大 [ (yxiwj +r) >1 时 ] RE [ (yxixj+r) <1 时 ] ， 而 Sigmoid 核 函 数 ， 只 是 在 特 
定 条 件 下 才 满 足 Mercer 条 件 。 

(3) 模型 参数 C My 的 选择 ”关于 SVM 的 研究 表明 ， 特 征 空间 的 维 数 与 SVM 的 复杂 度 
没有 直接 关系 ， 核 参数 影响 数据 在 特征 空间 分 布 的 复杂 程度 ， 误 差 惩罚 参数 C 通过 调整 给 
定 特 征 空间 中 经 验 误 差 的 水 平 来 影响 学 习 机 器 推广 能 力 。 参 数 A y 的 影响 是 同时 存在 的 ， 
只 有 综合 考虑 才能 得 到 性 能 最 优 的 SYM。 因 此 确定 了 RBF 核 函 数 后 ， 必 须 对 两 个 未 知 参 数 
C Fil 进行 选择 ,使 得 对 任意 的 未 知 面部 表情 图 像 ，SVM 能 做 出 准确 分 类 。 其 中 ， 误 差 惩 
罚 参数 C 的 作用 是 在 确定 的 数据 子 空间 中 ， 调 节 学 习 机 器 置信 范围 和 经 验 风 险 的 比例 ， 以 
使 学 习 机 器 的 推广 能 力 最 好 。 不 同 数据 子 空间 中 最 优 的 C 是 不 同 的 。 在 确定 的 数据 子 空 间 
F, C 的 取 值 小 表示 对 经 验 误差 的 惩罚 小 ， 学 习 机 器 的 复杂 度 小 而 经 验 风 险 值 较 大 ; 反之 亦 
然 。 前 者 称 为 “从 学 习 ” 现 象 ， 而 后 者 则 称 为 “过 学 习 ”。 每 个 数据 子 空间 至 少 存在 一 个 合 
适 的 C 使 得 SVM 推广 能 力 最 好 。 当 C 超过 一 定 值 时 ，SVM 的 复杂 度 达 到 了 数据 子 空间 允许 
的 最 大 值 ， 此 时 经 验 风险 和 推广 能 力 几乎 不 再 变化 。 

由 统计 学 习 理论 可 以 知道 ， 在 训练 分 类 器 时 ， 不 能 一 味 地 追求 经 验 风 险 最 小 〈 即 训练 
误差 最 小 ) ， 那 样 势必 造成 分 类 器 过 训练 ， 使 得 分 类 器 推广 误差 比较 差 。 因 此 ， 在 训练 分 类 
器 时 ， 可 以 采用 交叉 验证 (Cross-validation) 的 方法 ， 把 训练 样本 集 分 成 互 不 相交 的 两 部 分 : 
其 一 为 常规 的 训练 集 ， 用 于 调整 SVM 参数 ;其 二 为 验证 集 ( Valitation Set) ， 用 于 评价 SVM 
的 推广 误差 。 实 际 上 ， 常 常 首先 给 出 〈C，7y) 一 个 大 概 的 取 值 范围 ， 对 其 中 的 每 一 对 (C， 
y) 取 值 ， 再 分 别 采用 交叉 验证 方法 进行 训练 SVM， 这 样 可 得 到 一 组 较 优 参数 值 。 

3. 算法 的 程序 实现 

这 里 主要 解决 两 个 方面 的 问题 : 一 是 算法 的 速度 改进 问题 ; 二 是 如 何 利 用 程序 来 实现 相 
关 算 法 。 

(1) 算法 的 速度 改进 “系统 实现 需要 设计 的 算法 包括 通过 人 脸 图 像 预 处 理 、 表 情 区 分 
割 、 加 权 主 成 分 特征 提取 和 表情 分 类 等 算法 。 原 有 的 一 些 算法 需要 较 长 的 执行 时 间 ， 运 行 效 
率 低 ， 因 此 有 必要 对 原 有 算法 进行 改进 ， 使 之 更 适应 视频 图 像 处理 的 特点 。 

D) 利用 “三 庭 五 眼 ” 缩 小 积分 投影 的 搜索 范围 : 在 实际 运用 中 ， 为 了 提高 特征 提取 的 
速度 ， 还 可 以 利用 人 脸 结构 特点 的 先 验 知识 缩小 积分 投影 范围 。 所 谓 人 脸 结 构 特 点 是 指 ， 人 
脸 各 个 部 分 虽然 没有 绝对 的 标准 ， 并 在 一 定 范围 内 变化 ， 但 它们 之 间 有 一 定 的 比例 关系 ， 即 
通常 所 说 的 “三 庭 五 眼 ”( 参 见 第 2 章 ) ， 这 些 先 验 知 识 给 人 脸 图 像 中 眼睛 特征 的 定位 提供 
了 依据 ， 可 以 据 此 确定 在 人 脸 图 像 的 中 间 三 分 之 一 的 矩形 区 域内 ( 即 “ 三 庭 ” 中 的 “眉毛 
到 鼻孔 ” 间 ) 搜索 水 平 灰 度 投影 的 谷 值 ， 得 到 眼睛 的 水 平 位 置 的 确定 值 。 这 样 不 仅 可 以 减 
少 噪声 的 影响 ， 也 可 以 在 一 定 程 度 上 减少 计算 量 。 

由 前 面 定位 眼睛 的 方法 和 所 得 的 灰 度 水 平 积 分 投影 图 可 知 ， 对 面部 表情 图 像 进 行 水 平 灰 
度 投 影 ， 通 过 对 投影 曲线 的 分 析 同 样 可 以 确定 人 脸 图 像 中 的 嘴 也 对 应 水 平 积分 投影 曲线 的 谷 
值 区 域 ， 由 此 可 以 粗略 地 检测 出 嘴 的 位 置 。 这 里 ， 由 先 验 知识 知道 两 嘴角 的 位 置 大 概 位 于 眼 
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青 瞳 筷 的 下 方 ， 因 此 如 果 在 长 为 两 眼睛 瞳孔 的 下 方 距离 、 宽 为 下 巴 以 上 1/3 人 脸 距 离 的 矩形 
区 域 计 算 水 平 投影 的 值 ， 就 可 以 根据 其 谷 值 比较 准确 地 确定 嘴 的 水 平 位 置 。 

2) 求 取 变换 矩阵 的 快速 算法 : 人 们 知道 C 是 一 个 dxd 的 和 矩阵， 其 中 4 是 训练 图 像 的 
像素 数 ， 例 如 取 256 x256 像素 的 训练 图 像 ，d 的 值 就 高 达 655361 因此 求 高 维 矩 阵 C 的 特征 
值 和 特征 向 量 是 计算 量 非常 大 的 。 这 里 通过 和 矩阵 的 变换 ， 得 到 快速 的 算法 。 


























C = AA! 
式 中 
LSS =. 
= m” PLN (10-6) 
ZERE AA” 的 特征 值 Àl 和 特征 向 量 Ul 满足 : AA‘u, =X,u,, l=1, 25 "t d, 








一 般 来 说 ， 训 练 过 程 中 ， 面 部 表情 图 像 的 样本 数 不 会 高 于 图 像 的 像素 数 4， 所 以 可 以 先 
求 4'4 的 特征 向 量 ur : 








A'Au| = Aul (10-7) 
SR PEZ TY Ac RHE IE A, 得 AA"Au; = AA; = A,Au;, FLUCTU 
u, = Auj (10-8) 


这 样 求 高 维 矩 阵 C = AAT 的 特征 值 和 特征 向 量 的 问题 就 转化 为 : 先 求 较 低 维 的 矩阵 4"4 
的 特征 值 和 特征 向 量 ， 在 将 其 特征 向 量 左 乘 矩 阵 4， 这 样 大 大 减 小 了 计算 量 ， 所 以 称 为 求 取 
变换 矩阵 U 的 快速 算法 。 

(2) 算法 的 程序 实现 ”用 多 特征 融合 的 加 权 主 成 分 分 析 方 法 进行 表情 识别 ， 在 编程 过 
程 中 一 个 重点 就 是 求实 矩阵 的 特征 值 和 特征 向 量 的 问题 ， 这 里 我 们 学 习 了 计算 方法 中 的 相关 
知识 ， 由 于 协 方差 算 阵 为 对 称 矩 阵 ， 所 以 先 用 察 斯 霍 尔 德 (Householder) 矩阵 把 实 对 称 矩 
阵 变 形 到 对 称 三 角 和 矩阵 ， 并 可 积累 变换 和 矩阵。 然后 利用 隐 式 QL 算法 ， 确 定 一 个 实 对 称 三 角 
和 矩阵 的 特征 值 和 特征 向 量 ， 此 算法 运行 时 间 较 短 ， 占 用 内 存 较 少 ， 舍 入 误差 也 小 。 由 于 本 书 
篇 幅 有 限 ， 这 里 对 算法 的 具体 实现 过 程 不 做 详细 的 介绍 ， 可 以 参见 程序 中 TRED () 和 
TQLL () 两 个 函数 。 

1) TRED (A [], NI], D[], E []) 使 用 说 明 

N: 整 型 变量 ,输入 参数 ， 实 对 称 和 矩阵 的 阶 数 ; 

A []: NxWNN 个 元 素 的 二 维 实 型 数组 ,输入 、 输 出 参数 ， 输 入 时 存放 实 对 称 和 矩阵 A4， 输 
出 时 存放 积累 的 正 交 变换 矩阵 Q; 

D []: NN 个 元 素 的 一 维 实 型 数 祖 ， 输 出 参数 ， 存 放 变 形 后 的 三 角 对 称 矩 阵 的 对 角 线 元 
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E []: NN 个 元 素 的 一 维 实 型 数 祖 ， 输 出 参数 ， 存 放 变 形 后 的 三 角 对 称 和 矩阵 的 非 对 角 线 
JUR, 其 中 E [1] =0; 

2) TOLL (D [J], EL], N, Z []) 使 用 说 明 

N: 整 型 变量 ， 输 入 参数 ， 和 矩阵 的 阶 数 ; 

D []: NN 个 元 素 的 一 维 实 型 数 祖 ， 输 入 、 输 出 参数 ， 输 入 时 存放 对 称 三 角 和 矩阵 的 对 角 
元 素 ， 输 出 时 存放 和 矩阵 的 特征 值 ; 

E []: Y 个 元 素 的 一 维 实 型 数 祖 ， 输 出 参数 ， 存 放 对 称 三 角 对 称 和 矩阵 的 非 对 角 线 元 素 ， 
HFE [1] 20; 














224 


Z []: NxNN 个 元 素 的 二 维 实 型 数组 ， 输 入、 输出 参数 ， 如 果 是 求 三 角 对 称 和 矩阵 的 特征 
向 量 ， 则 输入 为 单位 矩阵 ， 夺 是 求 由 一 般 对 称 矩 阵 变形 到 三 角 对 称 矩 阵 的 一 般 对称 和 矩阵 的 特 
征 向 量 ， 则 输入 前 面 的 TRED 的 输出 矩阵 4， 输 出 时 其 第 天 列 存放 对 应 于 特征 值 D(XK) 的 规 
范 化 特征 向 量 。 


10.2.3 ”系统 的 实现 


本 系统 是 利用 Microsoft Visual C + +6. 0 Æ Windows 平台 上 开发 的 ， 系 统 运 行 时 的 界面 如 
图 10-3 所 示 。 
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图 10-3 静态 图 片 表 情 识 别 软件 示意 图 
本 系统 是 基于 多 特征 融合 的 主 成 分 分 析 算 法 来 实现 的 。 首 先 打开 训练 样本 数据 ， 通 过 边 
缘 处 理 、 二 值 化 、 对 称 投影 进行 表情 区 域 的 划分 ， 然 后 进行 特征 提取 ， 即 模板 训练 ， 将 计算 
后 的 相应 模板 保存 到 指定 目录 中 。 之 后 ， 将 待 识别 的 表情 图 像 读 入 ， 系 统 首先 载 和 模板 ， 然 
后 利用 基于 表情 区 域 的 加 权 主 成 分 分 析 方 法 进行 特征 提取 ， 并 将 提取 到 的 特征 向 量 送 入 分 类 
器 中 分 类 ， 最 终 得 到 测试 样本 的 表情 类 别 结果 ， 并 显示 出 来 。 
本 系统 的 实验 数据 来 自 CKACFEID 人 脸 表 情 数据 库 ， 我 们 共 取 100 幅 训练 样本 ， 同 时 突 
出 了 不 同类 别 的 表情 训练 样本 数目 的 不 同 ， 其 中 平静 、 高 兴 、 人 惊奇 三 种 表情 图 像 各 20 di, 
而 悲伤 、 灵 ， 惧 、 厌 恶 、 生 气 这 几 个 相对 不 易 表 现 的 面部 表情 每 种 10 幅 图 像 。 整 个 测试 样本 
为 包括 训练 样本 在 内 的 400 幅 图 像 ， 这 样 由 于 测试 样本 数 比 训练 样本 数 大 很 多 ， 就 可 以 体现 
SVM 的 真实 推广 能 力 。 具 体 识别 结果 如 表 10-2 所 示 。 
表 10-2 利用 SVM 分 类 器 (RBF ew) 对 表情 的 分 类 结果 
序号 类 别 训练 样本 数 样本 总 数 正确 识别 数 识别 正确 率 (96) 
































平静 20 80 69 86. 3 





1 
2 高 兴 20 80 74 92. 5 
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(35) 
序号 类 别 训练 样本 数 样本 总 数 正确 识别 数 识别 正确 率 (96) 

3 悲伤 10 40 35 87.5 
4 厌恶 10 40 33 82.5 
5 停 奇 20 80 76 95 
6 WR 10 40 35 87.5 
7 生气 10 40 32 80 

综合 100 400 354 88. 5 














10.3 ”基于 主动 表 观 模型 的 实时 面部 表情 识别 系统 


人 脸 表 情 识 别 技术 在 人 们 的 生活 中 得 到 了 越 来 越 广泛 的 应 用 ， 并 带 来 了 巨大 的 经 济 效 
益 。 目 前 主要 应 用 在 人 机 交互 、 安 全 、 机 器 人 制造 、 医 疗 、 通 信 、 教 育 及 汽车 驾驶 等 领域 ， 
并 且 将 会 越 来 越 多 地 应 用 到 人 们 日 常 的 生活 中 。 


10.3.1 系统 设计 








本 系统 的 表情 识别 主要 分 为 四 步 : 表情 图 像 的 采集 、 对 采集 到 的 图 像 进行 预 处 理 、 面 部 
表情 的 特征 提取 和 面部 表情 识别 ， 具 体 流 程 如 图 104 所 示 。 











启动 摄像 头 采集 视频 流 
进行 人 脸 检 测 
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图 





本 市 所 设计 的 识别 系统 分 为 训练 和 识别 两 大 部 分 。 在 训练 部 分 ， 
制 出 来 建立 图 片 库 ， 然 后 对 图 片 进行 标准 化 处 理 ， 在 得 到 的 图 片上 手工 标定 特征 点 ， 将 所 有 











训练 部 分 











TEARS SH 









































求 特 得 


F 均 形状 





根据 特征 点 坐标 








10-4 系统 流程 





建立 模型 








首先 将 检测 到 的 人 脸 分 
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形状 对 齐 后 得 到 平均 形状 ， 作 为 识别 部 分 的 模板 ; 在 识别 部 分 ， 首 先 对 检测 到 的 人 脸 进行 图 
像 预 处 理 ， 利 用 Canny 算 子 进行 边缘 提取 ， 利 用 训练 部 分 得 到 的 人 脸 模 板 ， 采 用 主动 形状 模 
型 (Active Shape Model, ASM) 方法 进行 人 脸 特 征 点 自动 定位 ， 对 提取 出 的 特征 点 利用 最 小 
二 乘法 设计 分 类 器 ， 再 进行 表情 识别 。 


10.3.2 基于 肤色 模型 的 人 脸 检 测 


从 摄像 头 获 取 的 图 像 包 含 了 很 多 非 人 脸 部 分 ， 所 以 首先 要 将 人 脸 单 独 提 取出 来 。 本 系统 
采用 基于 色彩 空间 的 人 脸 检 测 方法 。 研 究 表明 ， 人 脸 的 肤色 模型 在 YUYV 的 色彩 空间 中 具有 
很 好 的 聚合 性 ， 利 用 此 性 质 建 立 肤色 模型 ， 对 获取 的 图 像 进行 肤色 区 域 的 搜索 ， 从 而 确定 人 
脸 区 域 。 从 摄像 头 中 获取 的 图 像 信 息 的 颜色 模型 为 RGB 模型 ， 需 转换 成 YUV 色彩 模型 ， 转 
d 

= 0. 299Quarter[ n] [m 

U = - 0. 148Quarter[ n][ 

V = 0. 615Quarter[ n] [ m 




















]. r +0. 587Quarter[n] [m 
m]. r - 0. 289Quarter[ n ] [ 
]. r - 0. 515Quarter[ n ] [m 


]. g +0. H4Quarter[n][ m]. b 
m]. g + 0. 437Quarter[ n] [ m]. b 
]. g - 0. I00Quarter[n][ m]. b 

(10-9) 
式 中 ，Quarter [n] [m] 是 坐标 为 (n, m) 点 的 颜色 值 。 通 过 对 不 同 场景 、 不 同 条 件 下 的 
多 次 训练 ， 得 出 人 脸 肤 色 的 检测 阔 值 为 : Y »60, 3.14/ (180 x90) <R<3.14/ (180 x 
170) ， 其 中 R =arctan (UZV) 。 

















采用 肤色 模型 进行 人 脸 检测 的 最 大 问题 是 不 稳定 和 干扰 大 。 对 于 用 肤色 模型 检测 出 的 人 
脸 不 稳定 的 情况 ， 采 用 图 像 平均 法 和 人 脸 的 先 验 知识 来 解决 。 首 先 将 一 个 像素 的 颜色 值 设 为 
其 上 下 左右 像素 颜色 的 平均 值 ， 人 


A 








脸 ” 物 体 的 干扰 。 通 过 对 于 不 同 背景 

的 人 脸 检测 结果 表明 ， 此 方法 对 于 人 脸 

检测 具有 和 鲁 棒 性 。 人 脸 检 测 效果 如 图 

10-5 所 示 。 i = 
REP Fn AN EF .| EM 

大 (主要 是 颈 部 干扰) 的 问题 , 采用 Gi AA 

图 像 标准 化 的 方法 来 对 提取 到 的 人 脸 进 

行 处 理 。 首 先 利用 人 脸 的 先 验 知识 ， 人 图 10-5 人 脸 检测 效果 

脸 的 长 宽 比 例 约 为 1:1.25。 本 系统 利用 肤色 模型 方法 检测 出 的 人 脸 图 像 的 宽度 信息 和 项 部 

信息 都 比较 精确 ， 故 根据 图 像 的 宽度 信息 来 确定 人 脸 的 长 度 。 


10. 3.3 ”人 上 脸 图 像 预 处 理 


在 本 节 所 介绍 的 实时 表情 识别 系统 中 ， 实 时 性 要 求 比 较 高 ， 因 此 需要 在 不 增加 系统 开销 
的 前 提 下 ， 对 图 像 进行 必要 的 预 处 理 来 降低 后 续 表 情 识 别 的 复杂 度 。 基 于 这 个 原则 ， 本 系统 
只 对 那些 对 后 续 工 作 有 影响 的 部 分 进行 预 处 理 。 如 对 提取 的 图 像 进行 灰 度 化 ， 来 降低 图 像 维 
BE, 减少 计算 量 ; 利用 图 像 增强 方法 为 后 续 的 边缘 提取 提高 精度 ; 对 裁剪 出 的 样本 图 像 进行 
梯度 照度 修正 ， 来 克服 光照 对 面部 表情 特征 提取 的 干扰 。 

在 人 脸 图 像 处 理 的 过 程 中 ， 光 照 成 为 影响 后 续 人 处理 的 关键 点 ， 也 是 瓶 贷 所 在 。 本 系统 用 
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图 像 的 灰 度 值 拟 合 出 一 个 校正 平面 ， 用 各 点 的 灰 度 值 减 去 这 个 校正 平面 的 方法 来 克服 光照 的 
干扰 ， 取 得 较 好 的 效果 。 
设 待 处 理 的 图 像 包 含 个 像素 ， 每 个 像素 的 灰 度 为 1 (x, y) (i=1, 2, o5, n), T 
要 拟 合 的 平面 为 z=ax + by +c, WAT (x, y) 与 平面 z 之 间 的 差 最 小 ， 即 
(a,b,c) = min > [JCx;,y;) — (ax, + by, +c) | (10-10) 
由 最 小 二 乘法 可 以 解 得 














X = (P'P)'P'@ (10-11) 
式 中 
x, y, 1 I(x, i) 
X= Ü p| ^ !| gq |i) (10-12) 
C : 
xg Ya 1 I 9.3 


因为 (PP) P^ 仅 与 图 像 的 尺度 和 形状 有 关 ， 而 在 检测 过 程 中 使 用 固定 尺度 和 形状 的 
检测 窗口 ， 因 此 可 以 在 检测 之 前 ， 先 计算 CPP) PY 的 值 。 求 得 拟 合 平面 后 ， 将 图 像 中 各 
像素 灰 度 值 与 其 上 相应 位 置 的 z fECFHURURSS SIMA ER AARRE Ie Gn. yi) (i=1, 2, +, n), 
MFI i, y) 进行 灰 度 直方 图 的 均衡 ， 即 可 得 消除 光照 后 人 脸 图 像 。 照 度 修正 消除 了 图 
像 的 一 阶 变化 量 ， 很 大 程度 上 减弱 了 脸 部 的 阴影 ， 其 效果 如 图 10-6 所 示 。 











a) b) c) 


图 10-6 光照 修正 图 像 
a) 原始 图 像 b) 拟 合 平面 图 像 c) 光照 修正 图 像 















































10.3.4 特征 点 定位 及 特征 提取 


本 系统 采用 Canny 算 子 和 主动 表 观 模型 相 结合 的 方法 进行 特征 点 定位 。 利 用 Canny 算 子 
对 边缘 提取 精确 的 优点 ， 克 服 主动 表 观 模型 只 对 局 部 纹理 匹配 导致 陷入 局 部 最 优 解 、 偏 离 全 
局 最 优 解 (边界 ) 的 缺点 ， 使 两 者 有 机 地 结合 。 

1. 用 Canny 算 子 法 的 边缘 提取 

Canny 于 1986 年 提出 了 基于 最 优化 算法 的 边缘 检测 算 子 ， 它 相 比 其 他 的 边缘 检测 算 子 
有 三 大 好 处 ” : @ 好 的 信 品 比 ， 即 非 边 缘 点 判 为 边缘 点 或 将 边缘 点 判 为 非 边缘 点 的 概率 低 ; 
包 好 的 定位 性 能 ， 即 检测 出 的 边缘 点 要 尽 可 能 在 实际 边缘 的 中 心 ; 加 对 单一 边缘 具有 唯一 的 
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响应 ， 并 且 对 虚假 边缘 响应 得 到 最 大 抑制 。 从 本 质 上 讲 ，Canny 边缘 检测 算 子 属于 具有 平滑 
功能 的 一 阶 微分 算 子 。 它 具有 很 好 的 信 噪 比 和 检测 精度 。 

在 Canny 算 子 边缘 提取 时 ， 阔 值 设 定 是 一 个 很 大 的 困难 。 立 值 过 高 会 出 现 边界 断 断 续 
续 ， 靖 值 过 低 又 会 出 现 假 轮 廓 ， 本 系统 采用 双 闵 值 算法 来 解决 浆 值 设 定 的 问题 。 双 阔 值 算法 
对 非 极 大 值 抑制 图 像 设 置 两 个 靖 值 mx Mr, H 2r, =7+,， 从 而 可 以 得 到 两 个 阅 值 边缘 图 像 
N, li, jM N, Li, j]o BFN li, 站 是 使 用 高 阔 值 得 到 的 ， 因 而 含有 很 少 的 假 边 缘 ， 但 
有 间断 (不 闭合 ) 。 双 国 值 法 要 在 M li, 中 把 边缘 连接 成 轮廓 ， 当 到 达 轮 廓 的 端点 时 ， 
该 算法 就 在 W [i, jl 的 八 邻 域 位 置 寻 找 可 以 连接 到 轮廓 上 的 边缘 ， 这 样 算 法 不 断 地 在 
N, li, 刀 中 收集 边缘 ， 直 到 将 N，[i, 7] 连接 起 来 为 止 。 用 Canny 算 子 法 检测 边缘 的 具体 
过 程 如 下 : 

1) 用 二 维 高 斯 滤波 模板 与 灰 度 图 像 卷 积 ， 以 减 小 噪声 影响 。 

2) 利用 导数 算 子 ( 如 Prewitt 算 子 、Sobel 算 子 ) 找到 图 像 灰 度 沿 着 两 个 方向 的 导数 
G.、、G,， 并 求 出 梯度 的 大 小 和 方向 。 

3) 非 极 大 值 抑制 。 遍 历 图 像 ， 如果 某 个 像素 的 灰 度 值 与 其 梯度 方向 上 前 后 两 个 像素 的 
灰 度 值 相 比 不 是 最 大 的 , 则 将 该 像素 值 置 0, 即 不 是 边缘 。 

4) 使 用 图 像 累计 直方 图 计算 两 个 靖 值 。 灰 度 值 大 于 高 姜 值 的 像素 为 边缘 ,小 于 低 阔 值 
的 不 是 边缘 。 首 先 分 别 将 高 于 高 国 值 和 高 于 低 靖 值 的 点 压 栈 ， 先 将 高 于 高 冰 值 的 点 出 栈 ， 检 
查 与 前 一 个 点 的 连续 性 ， 如 果 非 连续 ， 则 在 低 阔 值 的 栈 中 寻找 该 点 八 个 邻 域 位 置 ， 将 其 连接 
到 轮廓 的 边缘 ， 这 样 不 断 搜索 ， 直 到 将 其 连接 起 来 。 书 中 给 出 了 利用 Canny 算 子 对 预 处 理 之 
后 的 人 脸 图 像 进 行 边缘 提取 的 结果 ， 如 图 10-7 所 示 。 在 对 人 脸 图 像 进行 边缘 提取 时 , 采用 
Canny 算 子 法 能 比较 好 地 提取 出 连续 的 轮廓 边缘 ,同时 对 于 噪声 有 很 好 的 抑制 。 更 为 重要 的 
一 点 是 ，Canny 算 子 法 是 根据 具体 的 灰 度 图 像 累计 直方 图 ， 而 且 采 用 了 双 阔 值 算法 ， 对 于 不 
同 场景 的 人 脸 图 像 ， 可 以 得 到 稳定 的 边缘 提取 结果 ， 保 证 了 边缘 的 连通 性 。 

2. 主动 表 观 模型 (AAM) 

传统 的 特征 点 定位 的 方法 只 利用 了 
图 像 的 形状 信息 ， 而 本 系统 采用 的 主动 
表 观 模型 方法 在 传统 的 形状 模型 的 基础 
上 加 入 了 图 像 的 纹理 信息 ， 将 形状 和 纹 
理 两 个 统计 模型 进一步 融合 为 表 观 模 
型 。 


































































































首先 ， 对 给 定 的 学 习 集 L = |U, a) b) 
s) li = 1, mys; = Ca ay rye Yi ) 图 10-7 用 Canny 算 子 进行 边缘 提取 
进行 训练 ， 得 到 模型 后 用 于 后 续 识别 。 a) 原 图 b) 边缘 提取 图 
在 人 脸 的 图 像 上 手动 标定 特征 点 ,将 所 有 形状 对 齐 后 计算 平均 形状 5， 将 所 有 训练 图 像 变 形 
到 平均 形状 ， 从 而 得 到 二 = (os)! = 1,…,m| ， 对 所 有 的 纹理 进行 主 成 分 分 析 
(PCA), ， 从 而 得 到 如 下 统计 模型 : 



































g-g*p,b, (10-13) 
RP, g 为 平均 纹理 ; p, 为 由 PCA 计算 得 到 的 纹理 主 成 分 特征 向 量 形成 的 变换 矩阵 ; b, 为 
控制 纹理 变化 的 统计 纹理 参数 。 
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在 该 算法 中 ， 利 用 人 脸 的 局 部 纹理 信息 ， 即 每 个 特征 点 在 其 邻 域 的 亮度 分 布 信息 ， 来 进 
行 特征 点 定位 。 采 用 的 邻 域 定义 参考 了 Coots 等 人 提出 的 Profile 邻 域 ， 该 邻 域 为 特征 点 处 法 
线 方向 上 一 定 长 度 范围 内 的 像素 。 然 后 对 每 个 像素 的 亮度 信息 进行 求 导 运算 ， 用 高 斯 分 布 建 
模 作 为 局 部 纹理 模型 ， 与 训练 样本 集 协 方差 最 小 的 像素 即 为 候选 点 。 将 特征 点 自动 更 新 后 再 
进行 循环 ， 直 到 协 方差 小 于 设 定 的 阔 值 。 

3. Canny AAM 

主动 表 观 模型 (Appearance Active Model，AAM) 算法 相对 于 只 利用 形状 模型 的 蛇 模 型 
匹配 法 和 弹性 图 匹配 法 增加 了 纹理 的 信息 ， 从 而 增加 了 定位 的 准确 性 。 但 其 匹配 的 过 程 中 ， 
要 综合 考虑 人 脸 轮 廓 及 其 非 人 脸 轮 廓 部 分 像素 点 的 纹理 信息 导致 ASM 算法 的 计算 量 很 大 ， 
而 且 如 果 初 始点 偏离 较 大 ， 会 使 特征 点 定位 到 非 轮廓 部 分 而 导致 定位 失败 ， 故 本 系统 将 主动 
表 观 模型 和 Canny 边缘 提取 相 结 合 ， 即 充分 利用 了 主动 表 观 模型 的 优点 ， 又 克服 了 其 计算 复 
杂 、 定 位 不 准 的 缺点 。 

本 系统 综合 考虑 了 计算 的 复杂 度 和 精确 度 的 问题 ， 首 先 在 对 人 脸 五 官 定位 之 前 ， 先 实现 
对 人 脸 外 部 轮廓 的 定位 。 采 用 曲线 拟 合 的 方式 ， 将 定位 的 特征 点 拟 合成 曲线 。 将 曲线 外 部 的 
轮 廊 去掉， 这 样 为 后 续 的 操作 降低 了 复杂 度 。 根 据 定位 的 特征 点 拟 合 的 曲线 为 

f =2*j x width’ +4height x i — 4height x width x i — height x width? (10-14) 

进行 处 理 后 的 人 脸 轮 廊 更 接近 于 真实 的 人 脸 ， 而 且 去 除了 宛 余 之 后 使 得 计算 复杂 度 大 大 降 
低 ， 对 于 下 一 步 的 五 官 特征 点 定位 的 干扰 也 大 大 减 小 。 

系统 采用 人 脸 先 验 知识 和 直方 图 投影 的 方法 来 定位 人 脸 的 具体 五 官 。 首 先 根据 前 人 研究 
的 三 分 图 和 四 分 图 的 人 脸 模型 分 割 方法 提出 了 混合 分 图 人 脸 模型 分 割 法 ， 将 每 一 个 五 官 都 定 
位 在 一 个 区 域内 ， 如 图 10-8e 所 示 。 此 方法 彻底 克服 了 三 分 图 和 四 分 图 中 人 的 五 官 无 法 限定 
在 一 个 区 域内 的 缺点 ， 对 五 官 某 个 器 官 进行 分 析 时 ， 只 需 对 该 器 官 的 所 在 区 域 进行 分 析 即 
可 。 





































































































图 10-8 ”人 脸 分 块 模型 
a) 四 分 图 b) 三 分 图 c) 混合 分 图 
对 于 整个 人 脸 的 轮廓 图 做 水 平 投影 ( 见 图 10-9) ， 即 可 将 人 脸 五 官 的 垂直 位 置 进行 大 致 
































定位 ， 在 定位 好 的 人 脸 图 像 中 ， 对 指定 模块 做 垂直 轮廓 投影 ， 即 可 将 人 脸 的 五 官 精确 定位 。 
通过 投影 ， 可 以 准确 定位 人 脸 五 官 的 范围 ， 然 后 利用 主动 表 观 模型 的 方法 ， 对 人 脸 的 五 
官 进行 特征 点 定位 和 特征 提取 。 经 过 特征 点 定位 后 ， 得 到 表征 人 脸 表 情 信息 的 特征 点 并 用 和 矩 
形 框 标识 出 来 ， 如 图 10-10 所 示 。 
结合 了 Canny 算法 的 主动 表 观 模型 比 传统 主动 表 观 模型 算法 提高 了 定位 的 精度 ， 而 且 定 
位 之 前 利用 Canny 算法 降低 了 维度 ， 使 得 计算 复杂 度 大 幅度 降低 ， 而 且 在 特征 点 定位 之 前 ， 
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a) 脸 水 了 


c) 模板 与 边缘 
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投影 b) 嘴 竖 直 投影 c) 眼睛 竖 直 投影 

















图 10-10 ”特征 点 定位 
a) 经 过 多 次 训练 得 到 的 平均 模板 b) 用 Canny 算 子 进行 边缘 所 
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) AAM 迭代 最 终结 果 e) 定位 结果 原 














ME ZIN 

















先进 行 边缘 提取 ， 使 得 边缘 突出 ， 减 小 搜索 范围 ， 提 高 了 定位 精度 。 


10. 3. 5 


系统 采用 最 小 二 乘法 设置 识别 分 类 器 ， 对 提取 出 来 的 特 和 


表情 识别 








F 点 进 


行 训练 ， 确 定 分 类 器 参 


S 


数 。 本 系统 设计 识别 四 种 人 类 表情 (平静 ， 悲 伤 ， 高 兴 ， 人 惊讶 ) ， 故 设置 四 组 参数 ， 进 行 分 


类 器 训练 。 
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ax +a% +K = y, 
bx, + bx, +K =y, (10-15) 
cxi +x, +K = y, 
dix, +d,x, + K = y, 
UP, «; 代表 提取 的 特征 点 的 坐标 ; y, 代表 识别 为 某 种 表情 ， 四 种 表情 依次 对 应 1 、2、3、 
4; a, bi, cn di 分 别 为 四 类 识别 结果 的 参数 。 

应 用 上 述 方法 设计 了 表情 实时 识别 系统 ， 并 对 香干 个 人 分 别 在 不 同时 间 和 场景 中 的 表情 
进行 识别 试验 。 在 本 平台 上 每 秒 钟 进 行 一 次 表情 识别 ， 采 用 每 人 10min (600 张 图 片 ) 的 办 
法 来 进行 识别 效果 的 统计 。 统 计 结 果 见 表 10-3。 

表 10-3 训练 人 群 和 非 训练 人 群 识别 率 统计 






























































高 兴 惊讶 悲伤 平静 
训练 人 群 (10 A, 10min) 82. 3% 98. 6% 86. 5% 85. 0% 
非 训 练 人 群 (10 A, 10min) 78. 496 95. 096 82. 396 80. 496 

















从 识别 结果 看 出 ， 对 于 参与 训练 的 人 来 说 ， 识 别 率 明 显要 高 于 没有 经 过 训练 的 人 ， 而 对 
于 四 种 表情 的 识别 结果 来 看 ， 惊 讶 的 识别 率 最 高 ， 而 高 兴 的 识别 率 最 低 。 

另外 ， 为 验证 上 述 算法 的 普 适 性 ， 将 本 系统 在 CMU 人 脸 表 情 库 ( CMU-Pittsburgh AU- 
coded Face Expression Image Database) 上 进行 了 表情 识别 实验 。 实 验 中 ， 随 机 抽取 了 10 人 的 
面部 表情 序列 ， 其 中 8 人 的 表情 作为 训练 样本 ， 其 余 2 人 的 表情 作为 测试 样本 。 识 别 结果 与 
K 10-3 所 列 的 结果 大 致 相同 ， 表 明 本 系统 采用 的 方法 具有 普 适 性 。 

本 系统 设计 了 一 个 拟 合 灰 度 平面 ,减轻 了 光照 对 人 脸 识 别 的 干扰 ; 采用 Canny 算 子 和 主 
动 表 观 模型 相 结合 的 方法 ， 提 高 了 特征 点 定位 的 精确 度 ， 降 低 了 计算 复杂 度 ， 实 现 了 系统 对 
于 实时 性 的 要 求 。 但 是 本 系统 还 存在 系统 稳定 性 不 高 、 对 特征 点 的 定位 不 够 详细 、 分 类 器 设 
计 过 于 简单 的 缺点 ， 还 有 待 进一步 提高 。 




































































10.4 基于 动态 图 像 序列 的 面部 表情 识别 











前 面 主 要 讨论 了 基于 静止 图 像 的 静态 面部 表情 识别 算法 ， 而 大 家 知道 ， 表 情 是 经 面部 区 
域 的 运动 而 产生 的 ， 表 情 的 动作 变化 是 表情 聚 类 的 实质 和 核心 。 因 此 ， 基 于 静态 图 像 的 面部 
表情 识别 算法 不 可 避免 存在 一 些 缺 点 : 

1) 用 静止 的 单 帧 图 像 进行 训练 和 识别 ， 反 映 不 出 表情 动作 的 变化 ， 没 有 包含 时 间 信 息 
和 运动 信息 ; 

2) 取 的 特征 是 局 部 的 和 线性 的 ; 

3) 扩展 性 不 够 好 ， 对 混合 表情 难以 识别 。 

光 流 法 是 对 运动 图 像 序列 分 析 的 一 种 重要 方法 。 光 流 是 空间 运动 物体 的 被 观测 表面 上 的 
像素 点 运动 的 瞬时 速度 场 ， 包 含 了 物体 与 成 像 传 感 器 系统 之 间 相 对 运动 的 关系 。 光 流 研究 
是 计算 机 运动 视觉 的 一 个 重要 部 分 ， 是 利用 运动 图 像 序列 中 的 强度 数据 的 时 域 变化 和 相关 
， 确 定 图 像 像素 位 置 的 运动 情况 。 利 用 光 流 法 可 以 有 效 地 分 析 人 脸面 部 表情 变化 的 动态 信 
， 提 取 能 够 反映 面部 表情 变化 的 特征 流 ， 因 此 本 节 主 要 讨论 基于 光 流 法 的 动态 表情 识别 算 
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法 。 
本 节 介 绍 了 两 种 改进 的 用 于 提取 面部 表情 变化 特征 的 光 流 算法 ， 提 出 两 种 改进 的 用 于 表 
情 分 类 识别 的 HMM 算法 ， 并 在 最 后 给 出 了 几 种 改进 算法 的 详细 实验 结果 对 比 。 


10.4.1 光 流 的 基本 计算 方法 


光 流 法 是 一 种 重要 的 运动 图 像 分 析 方法 ， 在 最 近 20 年 得 到 了 较 大 发 展 ， 研 究 者 提出 了 
多 种 不 同 的 光 流 法 作为 改进 算法 ， 主 要 可 以 分 为 四 类 : 时 空 梯度 法 、 块 匹配 方法 、 基 于 能 量 
方法 和 基于 相位 分 析 法 ， 甚 中 时 空 梯度 法 最 为 常见 。 

l. 时 空 梯度 法 

时 空 梯度 法 又 称 为 微分 法 ， 它 是 利用 图 像 序列 灰 度 ， 即 时 空 函数 ， 来 计算 每 一 图 像 
点 的 速度 向 量 。 设 1%,y,i) 为 1 时 刻 图 像 点 (x,y) 的 灰 度 ; u, v 分 别 为 该 点 光 流 向 量 沿 x 和 
y 方 向 的 两 个 分 量 ,， 且 有 w=dx/dt、v=dy/dt。 根 据 图 像 灰 度 一 致 性 假设 ， 有 d(x,y,t)/dt = 
o, w 












































Lu*Lv«I,-0 (10-16) 
写成 向 量 形 式 有 
VI-V+I,=0 (10-17) 
AH, L. L, L AY SRE RR EAIE x. y, t 三 个 方向 的 偏 导数 ; VIE 为 图 像 灰 度 
的 空间 梯度 VI =, L)"; es V=(u,v)"o 
FLA Fe be SL. LL, 与 光 流 向 量 的 关系 ， 由 于 该 方程 有 两 个 未 知 数 w、v， 则 
其 解 为 非 唯一 。 ee 本 来 就 是 一 个 不 适 定 问 题 ， 因 而 为 求解 了 
的 两 个 分 量 必须 附加 另外 的 约束 条 件 。 
Lucas 和 Kanade 假设 在 一 个 小 的 空间 邻 域 Q 上， 运动 向 量 保持 人 恒定， 然后 使 用 加 权 最 
小 二 乘法 (Weighed Least-squares) 估计 光 流 。 在 一 个 小 的 空间 邻 域 2 上， 将 光 流 估计 误差 
定义 为 





























> W(x) Cu + Lv +l)? (10-18 ) 


(x,y) eQ 


式 中 ， 了 及 (x) 表 示 窗 口 权 值 函 数 ， 它 使 邻 域 中 心 区 域 对 约束 产生 的 影响 比 外 围 区 域 更 大 。 式 
(10-18) 的 解 为 





U = (A'WA)'A'WB (10-19) 

式 中 ,在 i 时刻 的 n 个 点 X,eQ 下 , A=l[ VIQG) =, VICX,) ]' , W 2 diag| W(X,),.…, 
W(X,)] ,B= -[L(X),,L(X,)]。 

Horn 和 Schunck 将 梯度 方程 式 (10-17) 和 一 速度 场 整 体 平滑 约束 组 合 在 一 起 来 约束 待 
MEE V= (u,v) "， 最 后 得 到 了 一 个 稠密 的 光 流 场 。 
上 述 算法 的 实现 相对 简单 ， 计 算 复杂 性 较 低 ， 然 而 这 种 技术 存在 着 严重 缺陷 。 首 先 ， 图 
像 灰 度 一 致 性 假设 对 于 许多 自然 图 像 序 列 来 讲 都 是 不 合适 的 , 尤其 是 在 图 像 的 遮挡 边缘 处 和 
(X) 当 运 动 速度 较 高 时 , 基于 灰 度 一 致 性 假设 的 约束 方程 式 (10-9) 存在 着 较 大 误差 。 其 
次 ， 在 图 像 的 遮挡 区 域 , 速度 场 是 突变 的 ,而 总 体 平 滑 约束 则 迫使 所 估计 的 光 流 场 平 滑 地 穿 
过 这 一 区 域 , 此 过 程 平 清 掉 了 有 关 物 体形 状 的 非常 重要 的 信息 。 第 三 ,时空 梯度 法 的 一 s 
求 是 1(x,y,t) 必 须 是 可 微 的 ， 这 暗示 着 需 对 图 像 数 据 进行 时 空 巴 平滑， 以 避免 混合 效应 
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日 数值 微分 的 求 取 具 有 病态 性 ， 如 果 处 理 不 当 ， 将 对 最 终 的 速度 估计 产生 显著 影响 。 
2. 匹配 法 
匹配 法 实质 上 是 在 图 像 序 列 的 顺序 图 像 对 之 间 实 施 的 一 种 对 应 ， 它 将 光 流 定义 为 使 得 不 

同时 刻 图 像 区 域 之 间 产 生 最 佳 拟 合 的 位 移 。 给 定 两 巾 顺 序 图 像 1 和 1,， 对 于 图 像 1 中 的 每 

个 像素 点 (x,y) ， 以 此 像素 为 中 心 形成 一 个 大 小 为 (2n +1) x Qn +1) 的 相关 窗 Wo EZ d 

像 [中 的 对 应 像素 点 (x,y) 建 立 一 个 尺寸 为 (2N+1) x QN +1) 的 搜索 窗 WW,。 搜 索 范 围 可 根 

据 有 关 两 图 像 间 最 大 可 能 位 移 的 先 验 知识 来 确定 。 于 是 可 用 下 面 的 误差 平方 总 和 (SSD) 来 

计算 搜索 区 域 上 的 (2N +1) x (2N +1) 误 差分 布 ， 即 


























e(u,v) = b3 [I(x +i,y+j)-L(x+u+i,y+v+j)]? -Nazu,vzxN 
ij--n 


(10-20) 
然后 将 此 误差 分 布 转换 成 指数 形式 的 响应 分 布 ， 得 
R(u,v) = exp[ - ke(u,v) | -NsujyvsN (10-21) 
式 中 , 上 为 正则 化 参数 。 在 整个 误差 范围 内 ， 指 数 响应 函数 在 0 与 1 之 间 连 续 地 变化 。 
响应 分 布 搜索 区 域 上 的 每 个 点 均 为 “ 真 匹配 ”的 候选 者 。 同 时 一 个 点 的 响应 值 的 高 低 
决定 了 其 成 为 真 匹 配 的 可 能 性 大 小 。 假 设 两 顺序 图 像 帧 的 时 间 间 隔 为 1, 搜索 区 域 上 每 一 点 
fV u -2 空间 中 的 一 个 点 ,那么 响应 分 布 可 以 解释 为 速度 空间 中 的 一 个 概率 分 布 ， 即 每 一 
点 处 的 响应 描述 了 对 应 速度 值 的 似 然 。 根 据 估计 理论 , 利用 加 权 最 小 二 乘 方法 可 得 到 真实 速 
度 的 一 个 估计 为 












































2,2; RGOm)u => RGwY 





























V, = (Uest) ue = v, = (10-22) 
>, Re) Y Y RM) 
式 中 ,加 和 是 在 Neu, v<N 上 实施 的 。 与 此 估计 相对 应 的 协 方差 矩阵 为 
Y Rav) uu)’ SY Ro) (u -u,) (v - v.) 
> ,2 RC) Y X Ru) 
YOXRQs)w-u)(-w) — XX R5 -4) 
> ,> Ru») S S R(us) 
(10-23) 


此 协 方差 矩阵 特征 值 的 倒数 可 用 作 速 度 估 计 的 置信 测度 。 

对 于 这 种 匹配 方法 , 有 两 个 问题 值得 讨论 。 第 一 是 有 关 置 信 测 度 概 念 的 引入 。 在 解释 响 
应 分 布 时 , 默许 SSD 表面 是 单 峰 的 。 然 而 对 于 近似 周期 性 输入 , 特别 是 当 搜 索 窗 的 尺寸 大 于 
灰 度 变化 的 尺寸 时 ，SSD 表面 将 出 现 多 个 局 部 极 小 值 , 上 面 使 用 的 加 权 最 小 二 乘 方法 将 “中 
和 ”这 些 峰 值 , 从 而 产生 不 正确 的 速度 估计 。 然 而 ， 此 时 获得 的 置信 测度 也 是 较 低 的 。 实 际 
上 ,置信 测度 的 大 小 反映 了 速度 估计 的 可 敌 程 度 。 可 设 一 个 阔 值 ， 用 道 协 方差 矩阵 的 最 小 特 
征 值 作为 相应 速度 估计 的 置信 测度 ， 而 后 用 门限 方法 提取 出 “正确 ”的 估计 值 。 尽 管 这 样 
做 会 使 光 流 场 的 密度 有 所 损失 ， 然 而 却 提高 了 估计 精度 。 第 二 是 有 关 正 则 化 参数 上 值 的 选 
择 。 当 搜索 窗 中 的 响应 都 很 小 时 ,最 终 的 速度 估计 对 上 大 值 的 选取 非常 敏感 。 

3. 基于 能 量 的 方法 
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该 方法 认为 光 流 是 基于 速度 调谐 滤波 器 的 输出 能 量 。 由 于 速度 调谐 滤波 器 是 在 傅 里 叶 域 
中 设计 的 ， 这 类 技术 也 称 为 基于 频率 的 方法 。 一 个 平移 二 维 模 式 的 傅 里 叶 变 换 为 
1(k,w) = 1)(k)8(w + Vk) (10-24) 


st, TO) T(x, y, 0) 的 傅 里 叶 变换 ;8 为 狄 拉 克 函 数 ; w 为 时 间 频 率 ; k 为 空间 频率 ， 
k= (k, kh, ) 。 这 表明 与 平移 二 维 模式 相关 联 的 所 有 非 零 功率 均 位 于 通过 频率 空间 原点 的 一 个 
平面 上 ,这 是 基于 能 量 方法 的 一 个 基本 出 发 点 。 

在 此 介绍 一 下 Heeger 的 方法 。 他 将 光 流 估计 公式 化 为 时 空 能 量 与 频率 空间 一 平面 的 最 
小 二 乘 拟 合 问题 。 局 部 能 量 用 Gabor 能 量 滤波 器 来 提取 ,这 些 滤 波 需 分 属于 几 个 空间 尺度 ， 
每 一 尺度 有 12 个 滤波 器 , 它们 调谐 于 不 同 的 空间 定向 和 时 间 频 率 。 理 论 上 , 对 于 单一 平移 运 
动 ,这 些 滤 波 器 的 响应 集中 在 频率 空间 中 一 平面 附近 。 对 于 平移 白 噪 声 , Heeger 导出 了 调谐 
于 频率 (到 LE, w) 的 Gabor 能 量 滤波 器 的 预期 响应 ， 它 是 速度 的 函数 , 即 

一 4m ooo, (uk, + vk, + w)? 
iri da exp| (uo,o,)> + (va,0,)° + cra 
Ho. 0, o, 分 别 为 Gabor 滤波 器 高 斯 分 量 的 标准 偏差 。 

令 上 ;为 滤波 絮 的 预期 运动 能 量 , 它 由 式 (10-22) 给 出 ,不 同 的 i 值 对 应 于 不 同 中 心 频率 的 
滤波 器 ;m, 为 测 得 的 运动 能 量 , 即 相应 滤波 器 的 输出 ;m; 为 与 第 i 个 滤波 器 同 定向 的 滤波 器 族 
的 输出 之 和 ;; 为 对 应 的 预测 能 量 之 和 。 使 下 式 最 小 化 可 求 得 (u,v) 的 一 个 最 小 二 乘 估计 : 

= — E,(u,v) ; 
f(u,v) = DITS (10-26) 

Heeger 提出 两 条 途径 来 最 小 化 式 (10-26 ) ,一 是 用 牛顿 法 实现 式 (10-26) 的 非 线性 最 小 
化 ,二 是 采用 并 行 搜索 算法 。 

在 基于 能 量 的 模型 中 , 首先 要 对 输入 图 像 序 列 进行 时 空 滤波 处 理 , 这 是 一 种 时 间 和 空间 
整合 。 对 于 均匀 的 流 场 , 要 获得 正确 的 速度 估计 , 这 种 时 空 整合 是 非常 必要 的 。 然 而 , 这 样 
做 会 降低 光 流 估计 的 空间 和 时 间 分 辨 率 。 尤 其 是 当时 空 整合 区 域 包含 几 个 运动 成 分 (如 运动 
边缘 ) 时 ,估计 精度 将 会 恶化 。 此 外 ,基于 能 量 的 光 流 技术 还 存在 高 计算 负载 的 问题 。 

4. 基于 相位 的 方法 

Fleet 和 Jepson 首次 从 概念 上 提出 了 相位 信息 用 于 光 流 计算 的 问题 。 因 为 速度 是 根据 带 
滤波 器 输出 的 相位 特性 确定 的 ,因此 称 为 相位 方法 。 他 们 是 根据 与 带 通 速度 调谐 滤波 器 输 
出 中 的 等 相位 轮廓 相 垂直 的 瞬时 运 动 来 定义 分 速度 的 。 惠 通 滤波 器 是 按照 尺度 .速度 和 定向 
来 分 离 输 入 信号 的 。 每 一 滤波 器 输出 均 为 复 值 ,表述 如 下 : 









































(10-25) 
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R(x,y,t) = p(x,y,t)exp(ió(x,y,t)) (10-27) 
式 中 ,p 各 分 别 为 滤波 器 的 输出 幅 值 和 相位 角 。 于 是 ,垂直 于 等 相位 轮廓 的 速度 分 量 ; 
V, =sn (10-28) 
速率 和 法 向 单位 向 量 n 由 下 式 给 出 
m = EE : 
ver "Vel ee 











式 中 ,Vg$ =(q, ,中 ,) 为 相位 梯度 。 这 实质 上 是 一 种 微分 技术 ,只 不 过 对 象 是 相位 而 不 是 灰 
度 。 相 位 导数 可 用 下 式 计 算 : 
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_ Im BG D ROG y t) f 
p. (x,y,t) =I T (10-30) 


Fleet 和 Jepson 认为 , 带 通 滤波 器 输出 的 相位 分 量 比 幅 值 分 量 更 稳定 。 然 而 , 他 们 又 指 
出 , 相位 也 可 能 不 稳定 , 不 稳定 出 现在 相位 奇 点 的 邻 域内 。 可 用 下 列 一 个 对 滤波 器 瞬时 频率 
和 幅 值 变化 的 约束 条 件 来 检测 其 不 稳定 性 : 

| V logR(x,y,t) -il kl ,w) | <o,T (10-31) 

式 中 ,(141,2) 表 示 滤 波 器 调谐 的 时 空 频率 ;cx 为 各 向 同性 幅 值 谱 的 标准 偏差 ;7 为 一 门限 ， 
用 它 来 剔除 不 可 靠 的 分 速度 测度 。 此 约束 条 件 使 相位 技术 获得 了 较 高 的 估计 精度 。 

最 后 , 根据 来 自 不 同 滤波 通道 的 法 向 速度 估计 , 用 一 个 线性 速度 模型 拟 合 每 个 局 部 区 
域 。 在 5 x5 邻 域 上 收集 满足 稳定 性 约束 的 估计 值 , 进而 在 最 小 二 乘 意义 下 确定 最 佳 的 线性 
速度 模型 。 

基于 相位 的 光 流 技术 的 综合 性 能 是 比较 好 的 ,速度 估计 比较 精确 , 且 具 有 和 较 高 的 空间 分 辨 
A. 对 图 像 序列 的 适用 范围 也 比较 宽 。 同 时 , 这 里 仍 有 几 个 问题 值得 讨论 : 

1) 与 基于 能 量 的 光 流 技术 一 样 , 基于 相位 的 模型 既 有 一 定 的 生物 合理 性 ,又 有 较 高 的 计 
算 复 杂 性 。 

2) 尽管 相位 技术 用 两 帧 图 像 就 可 计算 光 流 , 但 要 获得 足够 的 佑 计 精度 , 就 必须 有 一 定 的 
整合 时 间 , 这 个 延迟 将 会 降低 边缘 处 运动 估计 的 时 间 分 辨 率 。 

3) Fleet 和 Jepson 的 方法 对 输入 图 像 序列 中 的 时 间 混 秋 比 较 敏 感 。 


10.4.2 基于 Hessian 矩阵 的 改进 光 流 算法 


传统 的 光 流 计算 方法 主要 是 基于 灰 度 守恒 和 光 流 场 的 平滑 性 假设 ,但 这 些 假设 在 阴影 . 边 
界 和 遮挡 性 的 地 方 不 再 成 立 , 为 此 提出 相应 的 改进 算法 。 

l. 前 向 -后 向 光 流 方程 

考虑 下 列 方程 : 
























































I(x,y,t) -I(x + Ax,y + Ay,t + At) = 0 (10-32) 
可 以 得 到 
I(x,y,t) 2 I(x + Ax,y + Ay,t + At) 
I(x,y,t + At) = I(x — Ax,y — Ay,t) (10-33) 
Xj 3X (10-29 ) 式 (10-30) 分 别 进行 泰勒 展开 ,并 忽略 二 阶 及 二 阶 以 上 项 ,得 
8L x y t) A " SHY n Lx y st) Ai -0 
Ox oy ot 

















aay ,t + At), , Wey + At), , Huy t+ AM). -0 (10-34) 
Ox ay dt 
即 
[u+Ev+I,=0 (10-35a) 
f +E v rJ iiai =0 (10-35b) 
] (00 0l(x,y,t) a — O0l(x,y,t) » — Ol(x,y,t 
nS Gr dey , Es ir E Gur IN 


uz Ol (x,y,t + At) JU oz Ol(x,y,t + At) JUS oz Ol(x,y,t + At) 
^ Ox Mo ay x ot 
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xX (10-35a) 3X (10-35b) 即 为 前 向 -后 向 光 流 方程 ,可 以 合并 为 一 个 新 的 光 流 方程 , 即 
I/'u Iv +I =0 (10-36) 

RP, SRAQLI OW ALI psg s 

W: = a *(1-0)/" ,I/ 2 al, + (1-0)/7" I; = al, + (1 0)L" ao 为 一 常数 ， 
根据 性 能 指标 式 (10-36) ,可 以 求解 出 光 流 场 (u,v)。 

2. Hessian 42 T£ 

尽管 Lucas-Kanade 光 流 法 计算 简单 , 光 流 估计 精度 较 高 ,但 它 有 一 个 致命 缺点 , 即 它 假定 
邻 域 2 内 各 像素 点 光 流 保持 恒定 ,而且 光 流 计算 依赖 于 窗口 权重 函数 ,这 意味 着 如 果 在 邻 域 
OQ 内 存在 严重 违反 光 流 约束 方程 的 点 或 邻 域 2 运动 不 连续 ,将 使 得 估计 的 光 流 可 靠 性 严重 降 
低 。 为 此 ,引入 Hessian 矩阵 判断 领域 2 内 每 点 对 于 基本 约束 方程 的 “ 良 态 性 ”。 

对 式 (10-36 ) 分 别 对 xy 求 偏 导 , 可 得 






































Lust lope -ly [utlwv= -1, (10-37) 
RI 
T P u T 
br "elis la E 
I, Udo 1, 
定义 Hessian 矩阵 为 
I; 
H- | | (10-39) 
Ly L, 
Hessian AB EIS] AK EAR : Cond ( H ) = I H I “ I H' | m LÀ max IZ AÀ min | , 其 中 À max ^ À min 














分 别 为 Hessian WE H 的 最 大 特征 值 和 最 小 特征 值 ， 可 以 通过 Hessian 矩阵 条 件数 大 小 来 判 
断 方程 式 (10-38) 解 的 稳定 性 ， 如 果 Hessian 矩阵 的 条 件数 很 大 ， 则 方程 式 (10-38) 为 病 
态 方 程 ， 对 应 的 Hessian 矩阵 秩 很 小 ， 其 解 不 稳定 ， 计 算 的 光 流 不 可 靠 ; 如 果 Hessian 矩阵 
的 条 件数 接近 1 ， 对 应 的 Hessian 和 矩阵 秩 很 大 ， 方 程式 (10-38) 为 良 态 ， 其 解 鲁 棒 性 较 好 。 
由 此 可 以 通过 计算 Hessian 矩阵 的 条 件数 来 剔除 邻 域 2 内 的 不 可 靠 点 。 

3. i FEB) AB Ab 

在 复杂 场景 运动 目标 检测 中 ， 由 于 场景 和 运动 目标 的 灰 度 梯度 可 能 相差 不 大 ， 使 得 运动 
目标 轮廓 处 于 模糊 状态 ， 在 光 流 场 的 计算 中 ， 只 有 在 灰 度 变化 较 大 的 地 方 ， 才 能 够 获得 比较 
精确 的 解 ， 其 他 位 置 得 到 的 解 往往 是 不 可 靠 的 ， 计 算 的 轮廓 处 光 流 不 准确 ， 也 即 基 本 光 流 约 
束 方程 在 灰 度 梯度 很 小 时 不 成 立 。 为 此 引入 梯度 约束 条 件 ， 设 定 灰 度 梯度 阔 值 ， 在 灰 度 梯 
ERTEM T 的 像素 点 计算 光 流 。 

4. 基于 Hessian 和 矩阵 的 光 流 算法 

Hessian 矩阵 的 条 件数 很 好 地 刻画 了 线性 方程 式 (10-38) 解 的 稳定 性 ， 而 且 条 件数 越 
大 ， 对 应 的 Hessian 矩阵 的 秩 越 小 ， 为 此 可 以 先 利 用 Hessian XB [EAR 4935 2 内 的 不 可 靠 点 ， 
并 把 各 点 对 应 条 件数 的 倒数 作为 该 点 权 值 ， 其 算法 如 下 : 

1) 计算 图 像 中 每 点 的 一 阶 和 二 阶梯 度 。 

2) 分 别 计算 每 点 对 应 Hessian 和 矩阵 的 秩 det (H) 和 条 件数 Cond (H), WEBEN 7, 
yi : 













































































W (X) zh m (H) «c (1040) 
1/Cond (H) det (H) >r 
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并 对 每 个 邻 域 2 内 的 WX) 进行 归 一 化 处 理 。 

3) 采用 加 权 最 小 二 乘法 求解 式 (10-35) 中 光 流 场 (u, v). 

为 了 验证 上 述 算法 的 有 效 性 ， 本 小 节 采 用 了 一 组 合成 图 像 序列 和 两 组 真实 图 像 序列 进行 
实验 。 其 中 ,合成 图 像 序列 相 邻 帧 间 的 真实 光 流 已 知 ， 通 过 采用 上 述 算法 对 其 估计 光 流 ， 然 
后 与 真实 光 流 比较 ， 作 出 定量 评估 。 对 于 光 流 场 了 = (u,v) ， 把 它 写 出 一 个 三 维 的 方向 向 量 


















































m (u, v, 1)", BSCE .和 估计 光 流 V. 之 间 的 光 流 角 误 差 可 以 表示 为 
g =arccos (V, * V.) (10-41) 
平均 误差 为 
N 
AE = F3 710 (10-42) 
isl 





AF, N 为 光 流 场 的 像素 个 数 。 对 光 流 场 标 准 角 偏差 定义 为 














] N | 
SD = "nm (pg (i) - AE) (10-43) 


BW Barron 等 人 的 做 法 ， 本 小 节 亦 在 估计 光 流 之 前 ， 采 用 了 标准 差 为 1.5 像素 / 帧 的 时 
空 高 斯 滤波 器 平滑 图 像 序列 ， 这 有 助 于 削弱 时 间 噪 声 和 输入 中 的 量化 效应 。 

图 10-11a, b 分 别 是 Translating Trees 图 像 序列 的 第 7、8 帧 ， 该 图 像 序列 以 1.73 ~2. 26 
的 流速 向 右 和 运动 ， 运 动 方向 平行 于 水 平 轴 。 图 10-11e 所 示 是 利用 本 小 节 所 述 方法 计算 的 第 
8, 9 帧 之 间 的 光 流 场 。 可 以 看 出 ， 光 流 方向 基本 跟 真 实 光 流 一 致 ， 大 小 有 些 差别 ， 表 10-4 
给 出 了 本 小 节 所 述 改 进 算法 和 其 他 方法 计算 的 光 流 平均 角 误差 和 标准 角 偏差 的 对 照 。 


z: 7 - 
































到 10-11 Translating Trees 图 像 序列 与 光 流 场 
a) 第 7 帧 图 像 b) 第 8 帧 图 像 c) 光 流 场 
表 10-4 对 Translating Trees 序列 ， 本 小 节 介 绍 的 改进 算法 与 其 他 算法 比较 



























































算 法 流速 平均 角 误差 + (°) 流速 标准 角 偏差 4 (9) 密度 (96) 
Horn 和 Schunck ( 原 有 的 ) 38. 72 27. 67 100 
Horn 和 Schunck (改进 的 ) 2.02 2.27 100 
Lucas 和 Kanade (A, » 1. 0) 0. 66 0. 67 100 
本 小 节 介绍 的 方法 0. 61 0. 62 100 














图 10-12 所 示 是 Rubie Cube 序列 实验 结果 ， 其 中 图 10-12a, b 为 Rubic Cube 序列 中 的 第 
9、10 帧 ， 图 10-13a 是 采用 标准 Lucas 和 Kanade 光 流 法 得 到 的 Rubie Cube 序列 中 第 9、10 
帧 光 流 场 ， 噪 声 含 量 比较 多 ; 图 10-13b 为 采用 本 小 节 方 法 得 到 的 光 流 场 ， 显 然 该 光 流 场 比 
较 准 确 地 反映 了 Rubie Cube 图 像 序列 的 运动 信息 ， 比 图 10-13a 噪声 少 得 多 。 
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< j < j 


图 10-12 Rubic Cube 图 像 序列 中 第 9 10 WE 图 10-13 计算 的 Rubic Cube 光 流 场 








a) 第 9 帧 图 像 b) 第 10 帧 图 像 

















所 示 为 采用 本 小 节 方 法 计算 的 光 流 场 。 图 10-15 所 示 为 一 
15a, b 所 示 分 别 为 该 序列 图 像 的 第 5、6 qi, 





























a) b) 


a) 基于 Hessian 矩阵 光 流 法 b) 基于 Lucas 和 Kanade 法 
利用 本 节 方 法 对 卡耐基 梅 隆 大 学 的 人 脸 表情 库 进 行 测试 ， . 10-14 所 示 为 一 愤怒 表情 序 

列 图 像 。 其 中 ， 图 10-14a、b 所 示 分 别 为 该 序列 图 像 的 第 11、13 帧 ， 人 愤怒 表情 主要 体现 在 

眼睛 、 眉 毛 和 嘴巴 : ABRAM, EPIRA SK, PAD EPUB AM, Al 10-14c 











惊奇 表情 序列 图 像 。 其 中 ， 图 10- 





惊奇 表情 主要 体现 在 眼睛 睁 大 、 上 眼皮 抬 高 、 





下 眼皮 下 落 、 嘴 巴 张 开 、 下 频 下 落 ， 从 图 10-15: 可 以 看 出 ， 该 光 流 场 基本 反映 了 眼睛 及 嘴 
巴 的 运动 趋势 。 但 由 于 人 上 脸 运 动 为 非 刚体 运动 ， 其 运动 过 程 中 发 生 了 变形 ， 导 致 图 像 灰 度 值 
发 生 严 重 变 化 ， 因 此 相对 于 刚体 运动 的 光 流 场 估计 ， 非 刚体 运动 光 流 场 估计 准确 度 稍 


差 。 








图 10-14 
a) 第 11 Wik 








X| 10-15 


PN 





a) 第 5 Wik 





pe pe 


E El 




















愤怒 表情 图 像 序列 与 光 流 场 











像 b) 第 13 帧 图 像 








ele 


| ASA 


c) 光 流 场 

















惊奇 表情 图 像 序列 与 光 流 场 











像 b) 第 6 帧 图 像 








c) 光 流 场 
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本 小 节 详 细 讨论 了 光 流 法 在 面部 表情 序列 图 像 分 析 中 的 应 用 ， 利 用 改进 的 光 流 算法 计算 
了 面部 表情 图 像 的 光 流 场 ， 针 对 传统 光 流 法 在 阴影 、 边 界 和 和 这 挡 性 的 地 方 灰 度 守 恒 和 光 流 场 
的 平滑 性 假设 不 再 成 立 这 一 问题 ， 引 入 前 向 -后 向 光 流 方程 ， 计 算 其 Hessian 矩阵， 并 把 
Hessian 矩阵 的 条 件数 与 Lucas-Kanade 光 流 法 中 的 加 权 阵 相 结合 ， 有 效 地 消除 局 部 邻 域 中 不 
可 靠 的 约 东 点 ， 同 时 进一步 提高 光 流 约束 方程 解 的 稳定 性 。 


10.4.3 散 度 - 旋 度 样 条 约束 下 的 非 刚 体 光 流 算 法 


Horn-Schunck 光 流 法 是 基于 灰 度 一 致 性 假设 前 提 下 得 到 的 稠密 光 流 场 ， 当 光源 不 恒定 或 
运动 物体 存在 形变 时 ， 光 流 计算 将 不 准确 。 人 脸 运 动 是 典型 的 非 刚体 运动 ， 采 用 传统 光 流 法 
必然 会 导致 光 流 场 计算 的 不 精确 ， 从 而 影响 面部 表情 的 识别 率 。 为 此 ，Richard P. Wildes 等 
人 基于 流体 运动 的 连续 方程 提出 了 一 种 适合 计算 流体 运动 光 流 场 的 扩展 光 流 算法 。 该 算法 对 
光源 变化 、 运 动物 体 的 形变 具有 较 好 的 鲁 棒 性 。 本 小 节 在 扩展 光 流 方程 的 基础 上 ， 通 过 引入 
散 度 - 旋 度 样 条 ( div-curl Splines) 作为 附加 约束 条 件 ， 进 一 步 深入 讨论 了 非 刚 体 运 动 光 流 场 
的 计算 方法 ， 并 将 该 算法 用 于 计算 面部 表情 序列 光 流 场 。 通 过 实验 表明 ， 该 方法 具有 较 好 的 
性 能 。 

l. 扩展 光 流 方程 
由 流体 力学 可 知 ， 所 有 流体 的 运动 都 遵循 如 下 连续 方程 : 

+div(pV) =0 (10-44) 













































































式 中 ，p 为 流体 密度 ; 了 为 流速 ; divV 为 速度 场 ，divV = du/dx + dv/dy + dw/dz, V= (u, v, 
w) BORE. XX (10-44) 可 进一步 展开 成 





ae Vp'V tpdivV =0 (10-45) 
如 果 用 图 像 灰 度 7 代替 流体 密度 p， 并 进一步 展开 可 得 到 . 
Lutlv+l,+lu, +w, =0 (10-46) 





其 中 V= (u, v) 为 二 维 速 度 场 ， 则 式 (10-46) 即 为 扩展 光 流 约束 方程 ， 与 基本 光 流 约束 
方程 比较 ， 扩 展 光 流 约 束 方程 增加 了 IdivV 项 。 

2. div-curl 样 条 约束 

式 (10-46) 中 含有 两 个 未 知 数 ， 为 了 求解 速度 场 (u, v), BAS AMIA RERE. 


Horn-Schunck 光 流 法 引入 一 阶 正则 化 函数 &，= IK IV ull? + | V vll?) dedy, WIEHE, 








在 求解 光 流 场 时 ， 该 正则 化 函数 等 价 于 一 阶 Div-curl 样 条 函数 = fC aiv? + 
|| curlV || *)dxdy, Het ,curlV = v, - u, o 
为 求解 式 (10-46) 光 流 场 ， 本 文 引入 一 阶 和 二 阶 div-curl 样 条 函数 作为 附加 约束 条 件 ， 
这 样 可 以 得 到 如 下 目标 函数 : 
Ji = N (Lu + Lv +1, + Iu, + In)? + a || divV ||? f || curlV | MEO (10-47) 





J, = [EI (Lu * Lo +I, + Iu, * l,)! +al V divy ||? «|| V cwl | * bawdy (10-48) 
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其 中 , 式 (10-47) 附加 约束 项 为 一 阶 div-curl 样 条 函数 ， 式 (10-48) 附加 约束 项 为 二 阶 
div-curl 样 条 函数 。a、B 分 别 为 散 度 与 旋 度 约束 项 的 平滑 参数 。 

3. div-curl 样 条 约束 下 的 光 流 数值 解 

(1) 一 阶 div-curl 样 条 约束 下 的 光 流 数值 解 ” 由 变 分 原理 可 知 ， 式 (10-49) 对 应 的 欧 
拉 方 程 (Euler-Lagrange Equations) 为 


F,-9-p, -9-p, =0 (10-492) 
ox gy ^ 
F,-9-p, -2F, 20 (10-49b) 





式 中 , FH (10-43) 中 的 被 积 函数 ， 由 此 可 以 得 到 
12 [aee Hush) ] +2 [acu +) ] +2 [80u 0) ] =0 (10-508) 
1 LU * Io I, lu, +lv,) | EIL +v,) | += [Bo -u,) ] -0 (10-50b) 


进一步 可 整理 为 


au, + Bu, + (a-B)v, =-M1, +1,u+1,0 + 2Lu, + Iv, * Lo, + Iu, + by) 
(10-51a) 

pi +w, + Ca — Ba, =- tye Le at Ea, +21v, tdi, + lv) 
(10-51b) 





利用 有 限 差分 法 求解 式 (10-51) ,可 以 得 到 
(2a * 28) u, ; *2Éu, -Hu - I1,v;; =2a u;; +26 uj; +22 uj; + (a-B) Av; ; + 








xx Ud xy tj 
ICL, «21, Au; +1,A,0;; t LAE INSu) (10-52a) 
2 y x 2 
(2a *28)v;; +20 v;; -Ivi j- I,u;; -2av;; *2Bw;; +2T vi; + (a -B) Aui; + 
K( L; +21,A,0; ; + lA, + LA,u;; 十 IA uij) ( 10-52b) 


à 1 1 1 
AF Su, = A.u;; = z isig n Has) ; Uy = Ayu;; = 5 Qua 一 U; j-1 ):v, = ALY; = 3 Cas 一 


1 1 : 1 
= oe ; ue n pers m m 
vi 1j) 30, = Av; j 72 (Vijai = Viji ) 5 Uij 2 (uy tuj.;);Uij = 2 (ti jsi + Uij-1 ) 3 Vi,j — 





= | c m PUE 
3 Qna +0; 4; 305 j "ug ael 33,1) 5 Uy, -2(uj, Uj ) ;Uyy -2(uj, 三 u; j) 3T. -2(wi, 5) ; 


Vy 72(vi; Vij) 0 


JER (10-52) 写成 如 下 紧凑 形式 : 











AV=VK+B (10-53) 
21-il -Ll, = fee Fe TRS 
HP, V = [uu] A ， + Qa sa) =| ‘| = es | 
cb: ios Won 28 
(a ~ BY Avy +1 Ly +20, Au; ; +L Avy + 1,A,0;; t IN; ;) E 为 单位 矩阵 
z ) Eo 
(a-B)A u; +I(L, +21,Av;; +1 Au; ; ELA Rn , DA 


采用 迭代 法 ,把 式 (10-53 ) 写成 如 下 迭代 形式 : 
VU =A '[V'K+B(V")] (10-54) 
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ZK (10-54) 为 基于 一 阶 div-curl 样 条 约束 下 的 非 刚体 运动 光 流 和 迭代 公式 。 
(2) 二 阶 div-curl FEA 的 区 何必 与 式 (10-48 ) 对 应 的 欧 拉 方 程式 为 








2 2 
F,- E GF, +F, +F, =0 (10-55a) 
óx "s " away "" ay 
2 2 
FoF, + Pe, a E ee) (10-55b) 
dy ax '"" away '" ay '» 


式 中 ,有 为 式 (10-48 ) 中 的 被 积 图 数 。 由 式 (10-54) 可 以 得 到 














FH 4p THs (a E + (a-p) 2 + (ag) 
x^ ay" ox oy ax r 
Ua E + hu, d$ (10-56) 
PO sph (as) LT "ui 4D m spe 
m 
RS V.D ae lu * hv.) (10-56b) 
ay x y x y 


sb P een, (Uag 4u;,,; -Au; ,.j + Ui 5j) -6u;; 








Ou , 
» o 十 (1. -4u, 541 -4u,., tuija) =6u;; tui; 
4 
Ov x 
m =6v, pk (Ua 4041, -4vj aj +V; ay) -6v,; +; j 
^p 
oy -Ó6v,; 十 (Vij+2 — 40; i.i -4vi ji, T2535) = 60; ; + vi 
Ou er OP Sie ae 
axa 2 =4(u,, FU, — Uj u?) "an ay? =4(0,, 十 Vi Vi cama) 
ou ou 
(a- SEE ay + Say) = Oo -p User jud T Uiig- tier ger t Mica T 
1 1 
4 Qaia B NP Mina get “Uo Gar) +7. Ui 41 j+2 ECT -g Vaga Siaga] 
=(a-B)[ -4A,u,; *2A,u;; *2A,u,;] =0 
EN EN 
Cas -B) (53 oy) =0 (10-57) 
ax” oy Uar 





同样 ,采用 有 限 差分 法 求解 式 (10-54) ,可 以 得 到 
(10a + 108 - IL, +27 )u;; -I1,v;; 2 -4(a+B)u -auw ; - Bul, + 











Tij 
4(a +B) (uj, * uj; ul) +2P ul ; tI, *2L Au, LA ELA INS) (10-58a) 
(10a + 108 - II,,. HP -IL,u;; 2 -A(a *)v;; - ov]; — Boi; + 
4(a +B) (vi, +0), ) +2P 9 7 4I, * 21, Av; LA ui; +1,A,u;; +1A,,u;,;) (10-58b) 
AH uj; =u i2 -4u 一 S 1j tuz 2j9 Uj = Wij+2 —4u,; 541 —4u,; ii +U; ja 
Vij EV Avia Aia DE EN — 40; 541 —4v; 5-1 +0; 5-2 
uj Uist jar FU; qq tier ger + ui Mou eee TU. TU g-1 Vici 
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把 式 (10-58 ) 写成 如 下 紧凑 形式 : 


AV = V‘K, + VK, +B (10-59) 


Wale. ed 
E (10a + 108) E; 


- La 2I- ly 
U; ; U; j = ur uj, 一 CQ 

Vv" = ;sV=|_ |;K,= |x = 
Vj vi j v; " v; s "E p 


| -4(a *B)u,, * I(L, «21,A,u;; t IA v; * LA vi; IA) | 


式 中 ， a=] 


4(a +B) +27 
4(aw+B) | 








-4(a +B)v;; +11, +20, Ayu, ; IN uj t T, Aui; +1A,,u;;) i 
同样 ， 式 (10-59) 可 以 写成 如 下 迭代 形式 : 
yl = A| VUK, + VK, + B(V) | (10-60) 
式 (10-60) 即 为 基于 二 阶 div-curl 样 条 约束 下 的 非 刚体 运动 光 流 迭代 公式 。 
4. div-curl 样 条 约束 下 非 刚 体 光 流 法 的 进一步 考虑 
利用 式 (10-54) IN (10-60) 可 以 求解 面部 表情 运动 序 玉 列 光 流 场 ， 为 保证 计算 的 准确 
度 能 进一步 提高 ， 对 散 度 与 旋 度 约束 项 的 平滑 参数 a、pB 进行 了 自 适 应 选取 ， 同 时 对 光 流 数 
值 解 进 行 了 限制 。 
(1) a. B 自 适应 选取 FEA o. B 控制 目标 函数 附加 约束 中 的 一 阶 或 二 阶 散 度 、 旋 度 
H, a 或 6 越 大 ， 则 对 应 的 散 度 或 旋 度 样 条 约束 对 光 流 估计 的 贡献 越 大 ， 反 之 亦 然 。 所 以 a、 
B 的 选取 必须 充分 考虑 到 运动 物体 的 运动 特性 ， 为 此 对 a. B 进行 自 适应 选取 。 
对 一 阶 div-curl 约束 下 的 光 流 算法 ， 选 择 
ldivV | |curl | 



































| (10-61) 
对 二 阶 div-curl 约束 下 的 光 流 算法 ， 选 择 
| VdivV | | VeurlV | 
a = I VdivV | +| VcurlV | p= | VdivV | +1 VeurlV | (10-62 ) 


这 样 ， 散 度 和 旋 度 约 束 项 参数 w、B 比较 合理 地 反映 图 像 中 各 点 的 散 度 、 旋 度 分 布 。 

(2) 光 流 数值 解 的 进一步 限制 式 (10-54) 和 式 (10-60) 解 的 稳定 性 取决 于 和 矩阵 4。 
WMR A 的 条 件数 Cond(4) 很 大 ， 则 式 (10-54) 和 式 (10-60) 为 病态 方程 ， 其 解 不 稳定 
计算 出 的 光 流 场 不 可 靠 。 为 此 ， 作 如 下 处 理 : 

1) 如 果 Cond(A) < r (r HBE), ， 则 按照 式 (10-55) 和 式 (10-60) 计算 光 流 ; 

2) 如 果 Cond(4) >r, WV" zv", 

5. 实验 结果 及 分 析 

为 了 验证 上 述 算 法 的 有 效 性 ， 本 小 节 采 用 了 一 组 合成 图 像 序列 和 CMU 人 脸 表 情 库 图 像 
序列 进行 实验 。 合 成 图 像 序列 相 邻 帧 间 的 真实 光 流 已 知 ， 通 过 采用 改进 算法 对 其 估计 光 流 ， 
然后 与 真实 光 流 比较 ， 作 出 定量 评 佑 。 采 用 了 标准 差 为 1.5 像素 / 帧 的 时 空 高 斯 滤波 器 平滑 
图 像 序列 ， 这 有 助 于 削弱 时 间 噪 声 和 输入 中 的 量化 效应 。 分 别 采 用 一 阶 、 二 阶 div-curl (Hic 
度 - 旋 度 ) 样 条 约束 下 非 刚体 光 流 法 计算 Translating Trees 图 像 序 列 的 第 7、8 帧 对 应 光 流 ， 















































该 图 像 序列 以 1.73 ~2. 26 的 流速 向 右 运 动 ， 运 动 方 向 平行 于 水 平 轴 。 图 10-16a、 
别 是 利用 上 述 一 阶 和 二 7、8 帧 之 间 的 光 流 场 。 可 以 看 
出 ， 光 流 方向 基本 跟 真实 光 流 方向 一 致 ， 大 小 稍 有 差别 ， 


其 他 方法 计算 的 光 流 平均 角 误 差 和 标准 角 偏 差 的 对 照 。 








s 











阶 div-curl 样 多 




















条 约束 光 流 法 计算 的 第 
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b 所 示 分 


K 10-5 给 出 了 本 小 节 改 进 算法 和 





OG 


=> 












































10-16 ”基于 div-curl 样 条 约束 光 流 法 计算 的 Translating Trees 序列 光 流 场 





a) 第 7 帧 光 流 场 b) 5 


序列 ， 


310-5 对 Translating Trees 




















第 8 帧 光 流 场 
本 小 节 改 进 算法 与 其 他 算法 比较 










































































算 法 流速 平均 角 误 差 (*) | 流速 标准 角 偏差 /4 (") | 密度 (96) 
Horn 和 Schunck ( 原 有 的 ) 38.72 27. 67 100 
Horn 和 Schunck (改进 的 ) 2. 02 2.27 100 
本 小 节 改 进 算法 (一 阶 div-curl 约束 ) 1. 68 1. 90 100 
本 小 节 改 进 算法 (二 阶 div-curl 约束 ) 1. 54 1. 76 100 
































然后 ， 利 用 从 卡 内 基 梅 隆 大 学 的 人 脸 表情 库 中 抽取 的 惊奇 表情 图 像 序列 进行 光 流 计算 ， 


惊奇 表情 主要 表现 在 嘴巴 张 开 、 腿 上 
第 5、6 帧 图 像 ， 图 10-17a、 











REK, EBBERS. 


图 10-15a, 


b 所 示 为 惊奇 表情 中 的 
b 所 示 分 别 为 采用 一 阶 、 二 阶 div-curl 样 条 约束 下 非 刚体 光 流 法 





计算 的 光 流 场 。 图 10-17c 所 示 则 为 Horn 和 Schunck 光 流 法 计算 的 光 流 场 。 从 计算 结果 可 以 


看 出 ， 采 用 本 小 节 改 进 算 法 可 以 比较 有 效 地 计算 出 惊奇 表情 的 运动 囊 
阶 div-curl 约束 下 的 光 流 法 ， 


动 ) ， 
17b), 


特 








图 





别 是 计算 基于 二 
而 用 Horn 和 Schunck 光 流 法 计算 ， 结 及 


10- 






































17 





图 10-14 所 示 为 愤怒 表情 图 像 序列 中 的 连 
阶 、 二 阶 散 度 - 旋 度 约束 方法 和 Horn 和 Schunck 光 流 法 计算 的 光 流 场 ， 显 然 ， 用 本 小 节 提 出 














一 阶 和 二 阶 div-curl 约束 光 流 法 及 Horn 和 Schunck 法 的 惊奇 表情 光 流 场 
a) 一 阶 div-curl 约束 b) 二 阶 div-curl 约束 


车 续 两 帧 图 像 ， 图 10-18 所 示 分 别 为 采用 采样 一 





c) Horn 和 Schunck 法 





村 征 (有 眼睛 和 嘴巴 运 
计算 的 结果 干扰 信息 比较 少 〈 见 图 10- 
果 不 理想 ， 干扰 信息 D 过 多 ( 见 图 10- 17c ) 。 
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的 改进 方法 计算 的 光 流 场 优越 于 Horn 和 Schunck 光 流 法 。 



































a) b) c) 


图 10-18 ”一 阶 和 二 阶 div-curl 约束 光 流 法 及 Horn 和 Schunck 法 的 愤怒 表情 光 流 场 
a) 一 阶 div-curl 约束 b) 二 阶 div-eurl 约束 c) Horn 和 Schunck 法 





6. 小 结 

考虑 到 人 脸 运 动 是 典型 的 非 刚体 运动 ， 采 用 传统 光 流 法 必然 会 导致 光 流 场 计算 的 不 精 
确 ， 本 小 节 引 入 div-curl 样 条 函数 作为 扩展 光 流 约束 方程 的 附加 约束 条 件 ， 并 给 出 了 一 阶 和 
二 阶 div-curl 样 条 约束 下 光 流 的 数值 解 ， 同 时 为 有 效 提高 光 流 场 计算 的 精度 ， 自 适应 选取 了 
散 度 和 旋 度 平滑 参数 ， 并 且 通 过 计算 光 流 求解 方程 中 系数 矩阵 4 的 条 件数 ， 进 一 步 判 断 光 
流 解 的 稳定 性 。 实 验 结果 表明 ， 上 述 的 两 种 改进 方法 均 能 有 效 提高 面部 表情 序列 图 像 光 流 场 
计算 的 准确 度 。 


10.4.4 ”基于 改进 MMI 的 HMM 算法 的 面部 表情 识别 


隐 马 尔 可 夫 模 型 (HMM) 是 由 Baum 等 人 在 19 世纪 60 年 代 提出 的 ， 目 前 在 模式 识别 与 
图 像 处 理 等 领域 得 到 了 广泛 的 应 用 。 由 于 HMM 具有 很 强 的 动态 时 间 序 列 建 模 能 力 ， 因 此 在 
处 理 时 间 序 列 问题 上 ，HMM 得 到 广泛 的 关注 。 传 统 的 HMM 参数 估计 方法 采用 Baum-Welch 
算法 ， 它 实际 上 是 一 种 最 大 似 然 法 (ML) 。 此 外 ， 人 们 还 提出 了 其 他 训练 算法 ， 如 最 大 互信 
息 (Maximum Mutual Information) 法 、 最 小 分 类 误差 (Minimum Classification Error) 法 、 校 
正 训 练 (Corrective Training) 法 、 最 大 模型 距离 (Maximum model distance) 法 等 ， 各 种 方法 
都 具有 其 自身 的 优点 和 缺点 。 参 考 文献 [22, 23] 中 提出 的 基于 MMI 训练 算法 将 所 有 训练 
样本 等 同 考虑 ， 而 实际 上 在 整个 训练 过 程 中 ， 不 同 训练 样本 对 HMM 参数 估计 的 贡献 是 不 相 
同 的 ， 基 于 这 种 情况 ， 本 小 节 定 义 了 一 个 更 为 合理 的 MMI 准则 函数 ， 称 之 为 改进 的 最 大 互 
信息 准则 (Improved Maximum Mutual Information Estimation, IMMIE) pia, ES T HMM & 
数 重 估 公 式 ， 并 结合 改进 的 光 流 算法 ， 把 它 应 用 于 面部 表情 识别 。 实 验 结果 表明 ， 该 方法 比 
MMI 和 Baum-Welch 法 性 能 更 好 。 

1. IMMIE 有 函数 

本 小 节 考 虑 的 HMM 均 指 连续 隐 马 尔 可 夫 模 型 (CHMM )。 

设 HMM 表示 为 








































































































A = Gr,A,B) (10-63) 

式 中 ,7 为 初始 状态 概率 , m = m) ， 本 小 节 只 考虑 左右 结构 的 HMM， 因 此 有 Ti 21,7, = 

OG AL) ; 4 为 状态 转移 概率 , A = lai s B 为 观察 向 量 的 混合 高 斯 概率 密度 函数 ,8 = 
1B,(0)} 。 

WA J HMM 模型 集 , A = 1AA Ar VA HMM 个 数 ; N, AM, TITEI A, 
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的 状态 数 和 每 个 状态 所 包含 的 高 斯 混合 元 个 数 ， 则 训练 样本 集 为 
0 = TO 20: 920750: ,05 2,0 ;°*;01 0r 0k) (10-64) 
AP, 0, 为 模型 A, 的 第 个 训练 样本 ; K, 为 模型 的 训 EM, AA O,= lon. 01. 
» Ont s Tr 为 观察 序列 0, 的 长 度 Co = 1,7, V;k = 1,---max(K,,--,Ky)) 。 最 大 互信 息 
准则 可 以 表示 为 














M(A) = logP(Al 0) 


EDS Y logP(A, | 0) 
7 » Y log MU às) (10-65) 
cx Y POP; LA) 
假定 P(A,) = 17V ， 即 每 个 HMM 等 概率 出 现 ， 则 式 (10-65) 可 进一步 写成 
P(O? | 
M(A) = > 3 iss Ba M 
aA 301 À.) 








= 2. - { logP (0; | A,) = log > PCO; | A.) } (10-66) 


式 (10-66) BOW 模型 A， 的 影响 同等 对 竺 ， 而 实际 上 在 各 个 训练 样本 下 ， 
每 个 模型 对 某 一 模型 A, 的 参数 估计 的 贡献 是 不 同 的 ， 因此 本 小 节 引 入 加 权 而 得 到 改进 MMI 
准则 函数 为 


V K, L 


M(A) = > DA. A) = 2 22 { logP(O}) - elog( Y PCO} | a9 (10-67) 


式 中 , 0<e<1, 950, 

对 比 式 (10-66)、 式 (10-67) 式 可 知 ， 参 数 n 的 引入 可 以 有 效 控制 不 同样 本 作用 下 每 
个 模型 对 当前 模型 的 影响 程度 ， 使 得 De 练 的 贡献 不 同 ; Pool. ec 
Hf, SQ (10-66) 和 式 (10-67) SE, KE m 值 ， 各 个 模型 对 某 个 模型 A, 影响 程度 也 发 生 
变化 ， 其 中 PCO; AL) BAK, ii 模型 A, 对 模型 \, 的 参数 估计 影响 越 大 , 值 
越 大 ， 这 种 影响 就 进一步 加 强 ， 反 之 亦 然 ; 参数 a 引入 则 可 以 有 效 控制 所 有 模型 对 当前 模型 
A, 参数 估计 的 综合 影响 程度 ， 特 别 是 ， 当 es =0 WY, XD (10-67) 退化 成 最 大 似 然 准 则 ， 此 
时 基于 式 (10-67) 的 HMM 模型 参数 估计 算法 等 同 于 标准 的 Baum-Welch 算法 。 

2. 基于 IMMIE 的 HMM 参数 估计 算法 

为 了 估计 HMM 参数 ， T 论 有 约束 优化 问题 


M(A) = x { logP(0;) Mr 5 P(o; LAL)” F } = max 
AP (10-68) 


约束 条 件 : Sal =1 YG =1 
为 求解 优化 问题 式 (10-68 ) , HOA ROS 


LA du) = MOD + X Sd; (1 - Sal eo cse) (10-69) 
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APF, di, e 为 拉 格 半日 乘 子 ; a 为 模型 A, 状态 i 转移 到 状态 j 的 概率 ; CG; 为 模型 A, 时 状态 


7 中 第 /个 高 斯 混合 元 的 混合 系数 ; 必 和 马 分 别 为 与 模型 A, 时 状态 








1 个 高 








UPS 其 混合 密度 











函数 N(o,p,, ) 对 应 的 均值 向 量 和 协 方差 年 阵 ( 取 对 角 型 ) 。 


a ôL aL aL 


ðL 





7 = 0 x 7 三 0 S - 
ða; aC, Lr 
MA _ qr =0 : 
ða; 0C; 


y 


即 





dj 


v K 


SU 
TUE 
aM (A) 


K, 


= 2 P(O; à A.) ga’ 


-e 260 


J 


7 = 0 ,得 到 


oM(A) 
Qu, 





= 0 


aP(O;l A,) 





y 


PCO A,)” aP(O21A,) 





29293 


五 =1 k=1 





v K, 


1 


CINE 


da" (10-70a) 
DEC Way «TER 


LO APOIA) 





1 P(O;IA,) 


aC; 


EIE A,)” aP(O^l A,) 





e>, 


p=1 k=1 P(O} | À, ,) 





‘jl 
v K, 


1 


* (10-70b) 
> Poa y 0 


aP(O; | À,) 





MESS 


Qu; 


POL A,)” aP(OL V A,) 





e>, 


p=1 k=1 


oM( A) 


Vv K 


P(O%| A,) 


K, 


2, 


(X)! £i 


(10-70c) 


DEC lay? 5 


1 9P(O, | A,) 





PCO, l A,) 


aCe)” 
P(OLV A)" 3PCOLT A.) 





gs l 


ps1 k=1 


p 


P(0lA) = 


ða; 


ij 


P( OL A,) 


z > o, (i) agb; Co, B. G) 


10-70d 
> PO; ao? G7 l i 


(10-71) 


vel jel 


Tř-1 


Aka ( i) b; ( On t+ JB (j) 


[2,06 or, PE i) ab; (0; 2H Brit (j) 


P(0;,s, = i, =jl A,) (10-72a) 
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N, 
ðP (0; | À,) - 23 2, ae ue NE OL ias X oM) Bra) 
-1 N, 
x » > ai (ap as NCO ot tg 25) + mNCOL th Sy) 
es N. 
1 < : v vw Š Ci N(o; ttl Min >, ) 
= C P3 > ap, (i i) a;b; (Op, 141) Bria (j) M, : : 
tel i=l 


`C N (o; NES Mim S ) 


m 
m=1 ý 


C, N (0, kl Pi ) 





mb; (0; , ) By. iQ) M, 





GT 
^ C; mN 0, B Dons X) 
T) 
ic À N(o; , uy S.) 
= C" , is DBE, Q) A 7 (10-72b) 
ye b= 


26 ANCO, us X, ) 
m=1 


N, N, M, 
l Ea > CNO a 
aP (0; | À,) a>, 2 ar Ci) a; >, jm (0,1, T m Mn) Be paid) 


du; Op 


Tř-1 N, 


p > a or i i)a; CN (Op is TE» Br tl Gg jl T (9 ,t+l = J) + 


T; CaN (04.1 us X, Br GIEK (A -= uy) 

uo CaN CO; aS a, | 

ho Yat (G i) a;b; (oj. ia) Bra J) M, ; mE X, (ou = ui) Y 
2. C, INC 0; ttl Min DH ) 


jm 








sc. 23 CEU du CS) "T | 
mblo Bra ) GO X, (oj - us) 


v 


>, C, NCOP Gs RON 


jm 
m= 





7i C;N( 0; , Ij 2 xD w-l v v 
> at DBLO) s Xj (Oke — ug) (sie) 


x C, NC Ok „Mm 22) 








mzl 
M, 
aP(O; | A,) » Saf, (i )a; Y. GNC, i i jm ats B t+1 G) 
(7 iG? 
TRS IN, 





CoN} a us S, ) 
= > 2,51 (i a Bria G) n. ; | 


oe C;N(o;. Hise) 
T;Bi (J) : xt : | 


y ] ] A T 
2 = Ga pH) Okan =)" | + 





n (a =m) Coka =m)" | 


= Y Sa; 4 i)a;b; (o;. ia Be nj 
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CINC ok er ty Sy) [Sp — (oa HH) Cou us | 
M, + 
25C aN (0, „t+1 Mim >y 3) 
m=1 


GN k Jus, ) [3i - a 7a Coa ui" | 





mb; Coi BiG) 
D NC O41 jn 22 
n — GN(C,, qus X, ) [Z; - Ci, - ui Cor, = ma)" | 
= >o or. DBQ) (10-72d) 
i 25 6, Noles) 


jm 





同 理 有 

















UMA RY. Tes | 
= P(O s, = i,s,., =jlA, 10-73 
3a; quee is jb A) ( a) 
aP(OLIA,) _ CaN Cok pn, S) 
aC, - Ly op OBLO) M, : : (10-73b) 
jl C i 
2, Cin N( ok Bhim > Sin) 
T? 
aP(O?1 A,) k py CIN) tp n 
"m = s BE Be) M, : DT X (ok -= fi) (10-73c) 
jl 
r 之 Cin NC Ok shtin X) 
aP(OR1A,) d Das CN COL ua JE; - Cols - n Cot = a)" 
OX) ^ = 2,07 OD Br Q) 
j 7 25 ON aa) 


(10-73d) 
RE, a (i) 和 BY,(i) 分 别 为 给 定 第 v 类 中 第 个 样本 在 模型 为 A, 时 ,i 时 刻 处 于 状态 i 的 前 
向 概率 和 后 向 概率 ; oe? (i) 和 BY,(i) 分 别 为 给 定 第 bp 类 中 第 个 样本 在 模型 为 A, 时 ,t 时 刻 
处 于 状态 i ab NE 可 概率 。 由 9M(A)/9a; - d; =0 得 














K, K 


vV K P(07| A,)" 
DE SET S PCOL ^ ILIA YU MUN 
| PCO AL) d A ei ES ns 





TP- 
TI 


Lr P( O04,s, z LS, =j | A,) = d; (10-74) 
从 而 有 
SEO J) >49 > Yet E COL) = ad; (10-75) 





式 中 ， ECOL) AE; CO; iJ) 为 过 渡 概 率 ,é (O7, i J) = P(s, = LS, - jl OL, À, ) ECOL, 
J) = P(s, = L8, = j| 05,A,) 39 (05 ,A,) 为 相对 输出 概率 ,gp(0?,A ,) = PCO). | 


A) | Y P(o; A]. 
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N, 
将 式 (10-67 ) 两 边 对 7 求 和 ,并 注意 到 > a; = 1 ,可 得 
J=1 


5 Y £C -> z > Y er „À, J£ (OF isl ) 


把 上 式 代入 式 (10-75) ,可 得 
S vider y oO! ADEC(L Lj) 
(10-77) 


pel k=1 t=1 


(10-76) 





1 
ee 
v Ky, Wl N, 


dj = iT m 
2.7 E00, iD ea» > > De OLA, COL GI) 
=1 ps1 k=l t=1 /=1 


JA ~ 








HHaM(A)/aC;, cud (20,58 
a 1 i CoN (04 1 oft By) ae 1 
2, POUR ari G) Bi GO) M, 2 P(O? | A.) 5 
k=1 k " jl t=1 " y v p=1 k=1 k v 
27 C, N( Onn Pm X. ) 


CaN Cok bin X) 
BN SE =e (10-78) 





TP 
PAO A,)" E "P 
j cs ot GRE (j) M, 
=1 
3 P( Or | Àu)” 6 À Cin NÈ OA 让 sim Sin) 





从 而 
(10-79) 


Y Ya eds s Yet, AY OLD. = Che 


五 =1 k=1 t= 
oj (Bra Gj) CiN (o; obti, Jj 
M, 


1 0, ,j,l = ) 
yi (0; Jj.) P(0t12A,) MH 
2 CN( 0, , Pin X. ) 


kel t=1 





AF, yrC Or j,D 为 混合 输出 概率 。 
CiN( or ois, ) 








ar GB.) 
"( OP l = ， ， 
y; ( kod» ) P(O' | À,) M, 
p Can NC OK, t Min X5) 
M, 
将 式 (10-79 ) 两 边 同时 对 1 求 和 ,并 注意 到 > C, = 1 ,得 
1=1 
K, Tr M 


本 
y K WW m 

e» Y Y > eC Ola.) vi (Of Jj, m) (10-80) 
p=1 k=1 t=1 m=1 


把 式 (10-80) 代 入 式 (10-79) , 
È y SS y eot ACT Dy 
(10-81) 


=1 t=1 p=1 k=1 t=1 
T 


Y Yt) e unis Y eto AXLCOL m) 


pal kzl t=1 m= 
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aM (Aau; -0 得 


K, 


v 








C N( ok E Mil D» ) ye v ET 
> P(O’ : À, -Z LOBO ， . i Xi (0; , = ui) IT À, E 
5 Cin N( OF,t ,Him P 
TP i j v 
P(011A,)* < Ci NCoL, ua ,> ) F 
T OBLO) wo sa NOUO (10-82) 
as PCO? | ee 


Y CUNG uh, XL) 
m=1 
也 即 


v 
K, Th 


p 
v “Kp Te 


X »a00503, (Hu coe» DEONAR OE O 5) 90 
ksl t-1 


p=1 k=1 t=1 





(10-83) 
所 以 
K, f, K, 
20 j l) or, m D Spo sÀn) Yi COL Jsl) Oha 
ui ENT — " p= s - (10-84) 
2 >, yi (O; JD -e> > 2, eC O12, )y (OF jL) 


p=l k=1 t= 


HaMCA)/3(X,) ”= 


K, T 


C;N(o, , ug X, DES i -= (or = My) Cora — ma)” l 
1 ji j j ji 
2 P(0; | A , e Br G) 


M, 


v 





2 
m-l 
V p 
D 1 P(O} I Agee id NN, 
ocu . EU > at DBLO) 
yal ELON! Sposa 
u-l 





CAN (of, us Sy) | X, = Cot, = uj Coka - us | 


元 -0 (10-85) 
2 » C; N( 0; 2 Ds X5) 
m-1 
也 即 





SS pCO {3 - GL, = wi) (of, 7] 


eX Y Sela dai OF sd (3 X,- = pp) Coka oa) } = 0 





Fe casi. (10-86) 
ps1 k=1 t=1 
因此 
K T, 
2: y COL 4D Co, = By) Coi, =M)" - 
v =1 t=1 
X, = E n > 
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ey Y Yet JD yi COLD Co, = min) Cot, = us) 


EET 





f» > Ye Ay COT 7,1) 


pel k=1 t= 


(10-87 ) 
式 (10-77) ,5&(10-81) 3È (10-84) 3X (10-87 ) 即 为 改进 的 HMM 参数 重 估 算法 。 重 新 考 
虑 式 (10-66) , 当 w>% 时 ,有 


1M (A) = > 2. f logP(0;) - slog max | PC 0; | A,) | | 





= 5 5 logP(0;1 à.) -2X Y logP(0; 1 A) (10-88) 
BEA, = {0} lv S argmaxP(0714,) ,0; € 0}, RHIC A, = 101,05, =, 0% | , WO; e ASK, 
H A, 中 样本 数 。 
对 比 式 (10-66 ) 和 式 (10-88) 可 以 发 现 ,对 于 式 (10-66) ,所 有 HMM 参数 估计 必须 同时 进 
行 ,对 于 式 (10-88) ,各 个 HMM 参数 可 以 单独 估计 ,其 算法 流程 等 同 于 Baum-Welch 算法 。 
要 使 M (A) =max, 可 重复 上 述 推导 过 程 , 得 到 


























K, TE-1 K, Tp-1 加 
2, 2,8: (055) ~ 62, Dd (Of sisi) 
v ksl t= l t= 
dj = K, Tl-1 N, K; T- 1 N, (10-89) 
23 Ds SECON) SEE $3 S 6 OLD 
=1 t=1 zl 151 [51 
K T, KTP 
LE uis Js D)-e&e» tora. L) 
Gsm I (10-90) 
m : Ya 3s m) ES 2, > yi CO dum) 
K, Ti K, TI 
2 VP E Do, - 62. zones D)o}, 
gS EE (10-91) 
2,5 (0i JD - 2 See Ona) 
k=1 tz zi ż=1 
K TE K, T 
2 yi CO JD Cor, = pa) o Uu; ) iP nao. J^ 1) oj, - ui) (oi, - B. 
yee - 


jl 


Y > y(O: Jj, - e Y; dot) 


(10-92 ) 








在 参数 重 估 过 程 中 ,为 保证 a; 21, Y C, = 1 ,必须 对 每 次 估计 的 参数 进行 归 一 化 处 


理 : aj = @y/ > ai Cy = C, ,其 中 a; 、G% 为 重 估 值 。 
j=l 
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至 此 ,改进 的 HMM 重 估 算法 基本 完成 ,下 面 概括 整个 算法 步骤 如 下 : 

1) HMM 参数 初始 化 。 采 用 经 典 Baum-Welch 算法 估计 HMM 参数 ， 把 估计 结果 作为 本 
小 节 IMMIE 算法 中 HMM 参数 的 初始 值 。 

2) 考虑 到 训练 初期 ， 训 练 样本 在 各 个 模型 下 输出 概率 相差 不 是 很 明显 ， 而 在 训练 后 
期 ， 样 本 输出 概率 相差 明显 ， 因 此 对 参数 7 进行 自 适应 变化 ， 即 n (loop) = 6", H, c 
为 一 常数 ，c > 1; loop Hie RAR. 

3) 对 每 个 训练 样本 ， 分 别 计算 前 向 概率 、 后 向 概率 、 过 湾 概 率 、 相 对 输出 概率 和 混合 
输出 概率 ， 并 对 训练 样本 集 重 新 分 配 ， 得 到 4,。 

4) 利用 式 (10-77)、 式 (10-81)、 式 (10-84) , 5X (10-87) 或 式 (10-89) ~ 式 (10- 
91) 对 HMM 参数 重 估 ， 并 进行 归 一 化 处 理 。 

5) 判断 参数 估计 是 否 达 到 预定 迭代 步 数 或 精度 ， 奢 是 ， 则 结束 ， 否 则 转 步 骤 (2). 

3. IMMIE 参数 估计 算法 在 面部 表情 识别 中 的 应 用 

面部 表情 识别 系统 的 训练 和 识别 流程 如 图 10-19 所 示 。 


表情 图 像 序列 光 流 场 计 算 
识别 p pou 光 流 场 计 算 
YA L. a zu 11.57] V 
BP 神 经 网 络 输出 


图 10-19 基于 IMMIE 的 HMM 算法 面部 表情 识别 系统 的 训练 和 识别 流程 

为 了 提取 面部 表情 的 动态 特征 ， 先 采用 前 面 的 改进 光 流 法 对 面部 表情 图 像 序列 计算 光 流 
场 ， 得 到 表征 面部 表情 变化 的 时 间 和 空间 信息 。 在 得 到 光 流 场 后 ， 分 别 对 水 平方 向 v 和 垂直 
Jr fs] v 的 运动 图 像 进行 归 一 化 和 标准 化 ， 采 用 PCA 法 分 别 求 取 习 方向 和 ?方向 的 基底 ， 表 情 
图 像 的 特征 向 量 是 有 w 和 w 分 量 的 投影 系数 串联 得 到 。 对 于 含有 菏 种 表情 变化 的 图 像 序列 ， 
先 依次 求 出 各 帧 图 像 中 的 速度 场 在 各 自 u、v 基底 上 的 投影 ， 并 把 wu、v 串联 起 来 构成 面部 表 
情 特征 向 量 ， 整 个 序列 就 是 面部 表情 特征 流 ， 用 来 作为 HMM 输入 信号。 

AE HMM 具有 很 强 的 时 间 信 息 处 理 能 力 ， 但 是 HMM 也 有 自身 缺点 : 首先 ， 由 于 训练 
准则 和 算法 的 限制 ， 使 得 它 对 模式 的 识别 能 力 较 差 ， 虽 然 本 小 节 对 改变 了 HMM 训练 准则 ， 
使 得 HMM 识别 能 力 有 所 提高 ， 但 其 识别 能 力 相 对 于 神经 网 络 等 分 类 器 来 说 还 是 有 差别 ; 其 
K, HMM 的 拓扑 结构 和 观测 向 量 概率 密度 函数 形式 的 先 验 选 择 往往 和 实际 有 出 入 ; 再 有 ， 
认为 状态 序列 由 一 个 一 阶 马 尔 可 夫 链 产生 也 不 一 定 妥 当 等 。 与 HMM 相 比 ，BP 神经 网 络 却 
具有 很 强 的 模式 分 类 能 力 ， 且 对 输入 的 统计 特性 不 必 作 出 先 验 假设 。 

为 了 充分 利用 HMM 和 BP 神经 网 络 的 优点 ， 本 小 节 构 建 了 基于 IMMIE 的 HMM 和 BP 神 
经 网 络 混合 分 类 天 ,把 BP 神经 网 络 作 为 二 次 分 类 器 〈 见 图 10-20) ， 其 训练 过 程 如 下 : 

1) 利用 改进 光 流 算法 ， 计 算 面 部 表情 图 像 序列 的 光 流 场 ， 为 降低 数据 维 数 ， 本 小 节 对 
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光 流 场 利 用 主 成 分 分 析 (PCA) 进行 数据 压缩 ， 得 到 面部 表情 的 特征 向 量 序列 。 

2) 对 上 述 得 到 的 特征 向 量 序列 ， 利 用 IMME 算法 训练 HMM, 

3) 把 各 个 HMM 输出 概率 组 合成 一 个 新 的 向 量 ， 并 把 它 作 为 BP 网 络 的 输入 信号 ， 训 练 
BP 网 络 分 类 器 。 
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图 10220”IMMIE-HMM/BP 神经 网 络 混合 分 类 器 

4. 实验 结果 及 分 析 

在 CMU 人 脸 数据 库 中 随机 抽取 了 14 个 人 的 面部 表情 图 像 序列 ， 并 把 10 人 的 面部 表情 
图 像 序列 作为 训练 样本 ， 其 余 4 个 人 的 面部 表情 图 像 序列 作为 测试 样本 。 针 对 每 种 表情 图 像 
分 别 构建 了 不 同 的 HMM， 各 个 HMM 均 选 择 左右 结构 ， 其 状态 数 为 4， 各 个 状态 取 高 斯 混合 
元 个 数 为 于 =3， 分别 利 用 式 (10-78) , 5X (10-81), 5X (10-84) , 5X (10-87) 和 式 (10- 
89) ~ 式 (10-92) 训练 HMM。 把 HMM 输出 作为 BP 神经 网 络 分 类 器 的 输入 信号 ， 再 训练 
BP 神经 网 络 分 类 器 。 其 中 ，BP 神经 网 络 输入 输出 节点 均 为 6 个， 其 隐 节 点 数 通 过 实验 调 
整 。 为 便于 比较 ， 同 时 采用 Baum-Welch 法 训练 HMM， 其 测试 结果 如 图 10-21、 图 10-22 所 
示 ， 其 中 IMMIE1 指 基 于 式 (10-77) , 3È (10-81)、 式 (10-84)、 式 (10-87) 的 HMM 训练 
算法 ，IMMIE2 指 基 于 式 (10-90) ~ 式 (10-93) 的 HMM 训练 算法 ，MMIE 指 基 于 式 (10- 
66) 的 HMM 训练 算法 。 

图 10-21 所 示 为 采用 基于 Hessian 甜 阵 的 光 流 算法 提取 面部 表情 的 光 流 场 ， 并 采用 PCA 
压缩 得 到 面部 表情 特征 流 ， 构 建 了 IMMIE-HMM/BP 神经 网 络 分 类 器 。 工 、 开 、 亚 、V 分 别 
为 采用 IMMIEL/BP 神经 网 络 、IMMIE2/BP 神经 网 络 、IMMIE/BP 神经 网 络 和 Baum-Welch/ 
BP 神经 网 络 四 种 方法 的 识别 结果 。 方 法 V 为 采用 Lucas-Kanade 光 流 法 提取 表情 特征 流 和 采 
用 Baum-Welch/BP 神经 网 络 分 类 器 得 到 的 识别 结果 。 

图 10-22 所 示 为 采用 非 刚体 光 流 算法 提取 面部 表情 光 流 场 和 采用 PCA 压缩 得 到 面部 表情 
特征 流 ， 构 建 了 IMMIE-HMM/BP 神经 网 络 分 类 器 。 工 、 工 、 焉 、K 、V 分 别 为 IMMIEI/BP 
神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMIE1/BP 神经 网 络 + 二 阶 div-curl 约束 光 流 法 、 
IMMIE2/ BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMIE2/BP 神经 网 络 + 二 阶 div-curl 约束 
光 流 法 和 Baum-Welch/BP 神经 网 络 + Lucas-Kanade 光 流 法 的 五 种 方法 识别 结 
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图 10-21 基于 Hessian 矩阵 光 流 法 的 表情 特征 提取 下 ，IMMI 法 与 其 他 方法 的 比较 
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Z| 10-22 ”基于 非 刚体 光 流 法 的 表情 特征 提取 下 ，IMMI 法 与 其 他 方法 的 比较 

由 图 10-21、 图 10-22 可 以 看 出 ， 四 种 方法 对 悲伤 、 惊 奇 两 类 识别 率 较 高 。 这 主要 是 因 
为 这 两 类 有 着 较 之 于 其 他 类 别 更 明显 的 几何 特征 ， 如 惊奇 表情 的 眼睛 张 开 得 比较 大 ， 上 有 眼皮 
被 抬 高 ， 下 眼皮 下 落 ， 其 嘴巴 也 大 幅 张 开 ， 以 至 于 层 和 齿 分 开 。 相 比 之 下 ， 高 兴 和 您 惯 这 两 
类 识别 率 普遍 较 低 ， 只 有 60% 左右 ， 主要 是 因为 高 兴 和 候 惧 在 表现 时 脸 部 带 定 有 和 较 多 相似 
运动 特征 ， 如 两 者 的 嘴巴 部 分 都 处 于 张 开 状 态 ， 且 张 开 程 度 相 似 。 在 试验 中 发 现 ， 影 响 高 兴 
识别 率 的 主要 是 铠 恨 ， 而 影响 钨 惧 类 表情 识别 率 的 除了 高 兴 外 ， 还 有 厌恶 和 愤怒 两 类 表情 。 
此 外 ， 由 图 也 可 看 出 ， 本 节 提 出 的 两 种 方法 〈 工 和 开 ) 比 其 他 方法 〈 亚 、 和 YV ) 对 各 类 
表情 的 识别 效果 均 有 不 同 程度 的 提高 。 由 于 测试 时 采用 的 是 陌生 人 脸 的 六 类 表情 ， 这 些 人 脸 
在 训练 样本 中 未 出 现 ， 由 这 点 可 以 进一步 体现 该 方法 的 鲁 棒 性 。 

如 图 10-23, [E 10-24 所 示 ， 所 有 结果 均 是 在 采用 10 个 人 的 表情 图 像 序列 作为 训练 样本 
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时 得 到 的 ， 为 了 进一步 探讨 参与 训练 人 数 和 测试 结果 的 关系 ， 我 们 进行 了 如 下 实验 ， 分 别 采 
用 6 ~10 个 人 的 样本 参与 训练 分 类 器 ， 其 余人 的 表情 图 像 序列 作 为 测试 样本 ， 其 结果 如 图 
10-23 [& 10-24 所 示 。 

图 10-23 A, “+” "o" "x" “器 ” 表 示 的 曲线 分 别 为 IMMIEL/BP 神经 网 络 、IMMIE2/ 
BP 神经 网 络 、MMIEZBP 神经 网 络 和 Baum-Welch/BP 神经 网 络 方法 在 采用 Hessian 矩阵 光 流 
法 提取 表情 特征 流 后 得 到 的 分 类 结果 ，“ VYV ”为 采用 Lucas-Kanade 光 流 法 提取 表情 特征 流 ， 
并 采用 Baum-Welch/BP 神经 网 络 分 类 器 得 到 的 识别 结果 。 如 图 10-24 所 示 的 “+”“o” "x" 
E ”分 别 为 IMMIEL/BP 神经 网 络 + — [fr div-curl 约束 光 流 法 、IMMIE1/BP 神经 网 络 
+ 二 阶 div-curl 约束 光 流 法 、IMMIE2/BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMIE2/BP 
神经 网 络 + 二 阶 div-curl 约束 交流 法 和 Baum-Welch/BP 神经 网 络 + Lucas-Kanade 光 流 法 等 五 
种 方法 在 不 同 训练 样本 集 下 的 识别 结果 。 
由 图 10-23 、 图 10-24 可 知 ， 随 着 参与 训练 的 人 数 增加 ， 各 种 方法 识别 率 呈 上 升 趋势 ， 
本 小 节 提 出 的 IMMIEZBP 神经 网 络 分 类 器 明显 优 于 其 他 分 类 器 ， 特 别 是 相对 于 Baum-Welch/ 
BP 神经 网 络 + Lucas-Kanade 光 流 法 ， 这 种 优势 就 更 为 明显 ， 可 以 预见 ， 随 着 参加 训练 人 数 
的 继续 增加 ， 采 用 改进 方法 的 识别 率 有 望 能 进一步 提高 。 
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K|10-23 ”基于 Hessian 矩阵 光 流 法 的 表情 特征 提取 下 ， 参 与 训练 人 数 与 识别 率 关系 曲线 











K 10-6 给 出 了 不 同方 法 在 训练 分 类 器 人 数 为 10 时 所 有 表情 类 的 识别 结果 。 同 时 ， 引 入 
参考 文献 [24 | 所 述 的 作为 对 比 。 参 考 文献 [24 ] 采 用 弹性 图 匹配 法 ,使 用 了 9 个 人 的 表情 图 
像 训 练 分 类 器 ， 对 陌生 人 脸 表情 的 测试 结果 是 65% 左右 ， 由 于 提取 的 只 是 表情 图 像 的 几何 
特征 ， 参 考 文献 124 ] 提 供 的 方法 实质 上 是 一 种 静态 的 表情 识别 方法 ， 而 本 节 所 述 的 方法 是 
一 种 动态 表情 识别 方法 ， 因 此 识别 效果 有 明显 提高 。 同 时 ， 本 节 采 用 的 是 改进 的 HMM 训练 
方法 ， 因 此 本 节 所 述 的 方法 较 之 其 他 动态 方法 (IMMIE + BP 神经 网 络 和 Baum - Welch + BP 
神经 网 络 ) 也 有 明显 改善 。 
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6 7 1o 
参与 训练 人 数 从 
图 10-24 ”基于 非 刚 体 光 流 法 的 表情 特征 提取 下 ， 参 与 训练 人 数 与 识别 率 关系 曲线 
表 10-6 采用 不 同方 法 的 面部 表情 识别 结果 比较 (%) 
"o IMMIEL/BP IMMIE2/BP MMIE/BP Baum-Welch/BP 参考 文献 
e 神经 网 络 神经 网 络 神经 网 络 神经 网 络 [24] 
Ke Hessian 矩阵 光 流 
83.5 82.4 80.2 77.1 
法 
一 阶 div-curl 约束 下 非 
85.2 84 81.4 78.5 65 
刚体 光 流 法 
mi neuen 86. 8 85.8 82.5 79.8 
刚体 光 流 法 
5. 小结 





改进 MMI 的 HMM 训练 算法 得 到 的 模型 更 为 精确 。 


量 的 限制 
IMMIE 算法 ， 每 个 HMM 训练 不 仅 利 用 了 本 类 样本 ， 而 ] 








本 小 节 提 出 了 一 种 基于 改进 MMI 的 HMM 训练 算法 ， 该 方法 相对 于 传统 Baum-Welch 算 


法 ， 上 只 有 如 下 优点 : 





(1) 模型 准确 性 ”Baum-Welch 本 质 上 是 最 大 似 然 法 ， 知 要 保证 HMM 训练 的 准确 性 ， 
则 需要 大 量 样本 。IMMIE 算法 充分 利用 了 所 有 训练 样本 ， 因 此 在 相同 训练 样本 集 下 ， 采 用 








(2) 过 训练 对 于 Baum-Welch 法 ， 每 个 HMM 训练 只 利用 了 本 类 样本 ， 由 于 受 样本 数 











训练 的 样本 分 布 更 为 广泛 合理 ， 从 而 可 以 避免 HMM 出 现 过 训练 ， 提 高 了 HMM 的 泛 化 能 
(3) 识别 能 力 ”Baum-Welch 训练 HMM 只 利用 本 类 样本 ， 因 此 该 方法 只 是 注重 对 本 类 











本 的 建 模 能 力 ， 而 忽略 了 对 其 他 类 样本 的 鉴别 能 力 ， 如 果 出 现 与 本 类 样本 相似 的 其 他 类 





昌 样 本 分 布 单一 ， 往 往 使 得 HMM 出 现 过 训练 ， 从 而 降低 HMM 泛 化 能 力 。 而 
是 利用 了 其 他 类 样本 ， 这 样 使 得 参与 


TER 





本 ， 则 该 HMM 就 很 难 对 该 样本 作出 准确 分 类 。IMMIE 算法 则 不 仅 利用 了 本 类 样本 ， 而 且 充 
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分 考虑 了 竞争 类 样本 ， 把 竞争 类 样本 作为 惩罚 项 引入 了 准则 函数 ， 从 而 可 以 大 大 提高 识别 能 
力 。 

(4) 训练 的 不 平衡 性 ”对 于 Baum-Welch 方法 ， 如 果 某 类 样本 很 少 或 缺少 ， 则 与 该 类 对 
应 的 HMM 训练 不 充分 或 无 法 训练 ， 不 能 有 效 对 该 类 样本 建 模 。 而 IMMIE 算法 则 可 有 效 避 人 免 
这 类 情况 发 生 ， 而 且 如 果 某 类 样本 缺少 时 ， 还 可 以 利用 其 竞争 类 的 样本 对 该 类 HMM 进行 反 
向 训练 ， 这 是 与 Baum-Welch 一 个 显著 的 区 别 。 


10.4.5 ”基于 改进 MMD 的 HMM 算法 的 面部 表情 识别 


最 大 互信 息 法 和 最 小 鉴别 信息 法 都 以 减少 HMM 分 类 误差 作为 间接 目标 ， 但 是 这 两 种 方 
法 都 很 难 从 理论 上 证 明 训 练 后 的 HMM 能 够 有 将 降低 错误 率 。 参 考 文献 [25-27 | 提出 了 一 种 
基于 最 大 模型 距离 (MMD) 的 HMM 训练 方法 。 该 方法 能 够 使 得 训练 过 程 自动 聚焦 于 那些 
易 混 淆 样本 ， 可 以 有 效 地 提高 HMM 对 已 类 和 非 已 类 样本 的 识别 率 。 

本 小 节 对 参考 文献 125-27 ] 所 用 模型 距离 进行 了 修正 ， 重 新 定义 了 最 大 模型 距离 准则 。 
考虑 到 竞争 样本 在 某 些 模 型 下 输出 概率 非常 小 ， 其 对 模型 参数 估计 的 影响 也 非常 小 ， 完 全 可 
以 被 忽略 不 计 ， 基 于 这 种 考虑 ， 本 小 节 引 入 最 佳 竞争 模型 集 代 替 原 有 模型 距离 定义 中 的 所 有 
竞争 模型 ， 并 通过 引入 参数 来 控制 竞争 模型 集 对 当前 HMM 模型 参数 估计 的 综合 影响 程度 ， 
重新 修正 了 模型 距离 定义 ， 称 之 为 改进 的 最 大 模型 距离 (Improved Maximum Model Distance, 
IMMD) ， 并 基于 该 IMMD 推导 了 新 的 HMM 训练 算法 ， 并 将 该 HMM 训练 算法 应 用 于 面部 表 
情 识 别 。 采 用 光 流 算法 提取 面部 表情 特征 序列 ， 最 后 基于 改进 HMM 算法 和 BP 神经 网 络 构 
建 了 一 个 混合 分 类 器 ， 实 验 结果 表明 了 该 方法 的 有 效 性 。 

1. IMMD 准则 函数 

iz HMM 表示 为 =(T,4,B), 其 中 7 为 初始 状态 概率 , 7 = |7;| ; A 为 状态 转移 概率 ， 








































































































4= 2l B 为 观察 向 量 的 混合 高 斯 概率 密度 函数 , B= (b (0) 1; BEA Wy HMM 模型 集 , A = 
E Avt; VÀ HMM 模型 个 数 ; N, 和 MM, 分 别 为 模型 和 A, 的 状态 数 和 每 个 状态 所 包含 的 
RA XAR. 则 训练 样本 集 为 


O = [0], =, 0k 0}, , 0}, 5750]. 01 
AP, 0, 为 模型 A, 的 第 个 训练 样本 ,KK, 为 模型 A, 的 训练 样本 数 ， 且 有 0, = {0,1025 
0 A 的 观察 向 量 序列 长 度 。 最 大 模型 距离 (MMD) 准则 可 以 表示 为 


D(4) = > D(A,,A) 


























= - ri Ly s osos | A,) -log| LÀ 5 P(o; LA, F (10-93) 
本 小 节 将 DOA, A) 修改 为 7 
D(X, d 
=x, Ly genos | A,) - elog| > RO wy] (10-94) 
式 中 ,0 ee <1; Al 为 样本 OF 的 最 佳 竞争 模型 集 ,4 -fa , p ALAD > THR, isto} 
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O«THR «1; VHA Ee 从 而 得 到 IMMD 准则 函数 为 
DAJ = Yi i y [oP lx - alos zXPOAY|]) doe» 


对 比 式 (10-93) 和 式 (10-95) 可 知 : 

1) 若 s=1, 且 TBR=0， 则 式 (10-93) 与 式 (10-95) 等 同 。 

2) 式 (10-95) 用 最 佳 竞争 模型 集 代 替 了 式 (10-93) 中 的 所 有 竞争 模型 ， 对 于 HMM 
分 类 器 来 说 ， 如 果 正 确 模型 的 输出 概率 能 大 于 最 佳 竞争 模型 子 集 的 输出 概率 ， 则 该 HMM 就 
能 作出 正确 分 类 ， 此 时 完全 可 以 不 考虑 其 他 竞争 模型 的 影响 。 因 此 ， 从 这 个 角度 考虑 ， 采 用 
最 佳 竞争 模型 集 代 替 所 有 竞争 模型 更 为 合理 。 

3) 最 佳 竞争 模型 集 的 引入 可 以 进一步 减少 计算 量 ， 最 佳 竞争 模型 集 大 小 由 THR 值 控制 。 

4) 改变 7 大小， 可 以 调整 不 同 竞争 模型 的 影响 程度 。 

5) BR e 的 引入 可 以 控制 最 佳 竞争 模型 集 的 整体 影响 程度 ， 特 别 是 ，s =0 时 ， 该 方法 
退化 为 经 典 的 Baum-Welch 方法 。 

2. 基于 IMMD 的 HMM 参数 估计 算法 

考虑 有 约束 优化 问题 ， 得 


D(A) = È r2 flog? (0; | A,) - elog[ Jy -> PROS | A)" i: Hs max 


Vis eA; 






































约束 条 件 : 2,2; -1 SG; = 1 
| (10-96) 
构造 拉 格 朗 日 函数 为 
LA) = D(A) +S Sa L- Ya) «XX (m (10-97) 


CU, dj. e; 为 拉 格 朗 日 乘 子 ; a; RTI A, 状态 i 转移 到 状态 5 的 概率 ; C, ERAS A, 时 状态 
中 第 /个 高 斯 混合 元 的 混合 系数 ; jw 和 马 分 别 为 与 模型 和, 时 状态 7 中 第 /个 高 斯 混合 密度 
函数 NN(o,pw, 马 ) 对 应 的 均值 向 量 和 协 方差 矩阵 〈 取 对 角 型 ) 。 

4 9L 9 3L og 3L 29 db 
































20,—— 20,5— 20 = 0, 得 到 
ða ac, Ou, d( Xj) : = 
oD(A) oD(A) B 9D(A) . oD(A) _ 
d 0 7 €j = 0 E zi TOS 
ða; 9C; Op; 0 ( Ni ) 
JF A. 
aD(A) _ 1 S w 10 POIA 
0a; K,£ T, P(O,I A,) ða; 
X: IP NE, 1 P(Oj1 A,)"8(A5,A,) àPCOL E A,) 
€ 
pa KE TPIP(OIIA,) — Y PCO A)? dai; 
pv 


cA? 


(10-98a) 
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ir aP(O; | À,) 
K, fi O | A,) 9C; 
PE ix 1 1 P(O% | A,)"8CAL,A,) 9P(O 1 A,) 
€ ; 
p=l K, k=1 T, P(OR | X,) PCO A)" 9C; 
pee AeA? 
(10-98b) 
àP(0 1 À,) 
K, £3 T; P(O; À, ,) Op 
E 1 P(OLV A,)"8CAL,A,) 9P(O | A,) 
€ ; 
p=1 K, k=l T, PU | À,) > POH A)" Op; 
Bre AeA? 
(10-98c) 
aD(A) 3l y 1 1 aP(Oil A) _ 
et E dic ay) 
i LY P(O^ | A) ECA, A, ) JPOP A,) 
€ 
zi ERO à) S POIA)” a) 
2 AcAP 
(10-98d) 
i 1 Fi A, Ee Al 
式 中 8 (AE, A) -| 
0 F A, ¢ A; 
aP(O; | A,) r | , 
= P 0, , "o 9 tt = | A, 10-99 
gaz a 2s ( ko 7 Si+1l J 2j ( a) 
àPCO? | A,) zB 
"^ 一 P(O',s, = is -jlA, 10-99b 
a? Ly ( k 7 Si+1l J D ( ) 
F 
oP(O 1 A, CN pd 
E 2 "eX or DBL) a Oho a) (10-100a ) 
il jl t= v v v v 
i : > Can N( Ok ,Him pos ) 
aP(O^ | À, CaN (Oki hit XN 
Ca a a (DBLO) E tiat) (10-100b) 
ac; Cy ic 
LG „N (O, s, 2) 
9P(O; | A,) C N (o; uM i) 





T: 
APT po OT OE. X; (or =u) (10-101a) 
ji teil ) v v ^3 
à S CON (0! i3) 
m-l 


T 
CC, qs X; 
= 2. ag, (DBL (j) i, jl (oj. Mj it) 


2, CaN (Ob fim s) 
mzl 


aP(O? | A,) 
op; 





NM; (0b, =u) (10-101b) 
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T" 
aP(O; | A,) : 4 CaN Cora us XU; - Cot = us Coi, - us] 
SEX a 2, ai VBE, iQ) M, 
2 oy C, mV ( 0; d „Mjm S) 
(10-102a) 
T" 





C;NCoL ui XD pitt - ua) (o, - n | 
M, 


2 2 C, NÈ 0, , „Mim Da ) 


ERRE a 
XX - 2, 0t, (Be GQ) 


(10-102b) 
XP, af Q) FI BUG) 分 别 为 给 定 第 v 类 中 第 个 样本 在 模型 为 A, 时 ，t 时 刻 处 于 状态 i 的 
前 向 概率 和 后 向 概率 ; on G 和 BY,(]) 分 别 为 给 定 第 p 类 中 第 个 样本 在 模型 为 A, 时, t 时 
刻 处 于 状态 i 的 前 问 概 率 和 后 向 概率 。 

HH aD(A)/aa;, -d=0, 得 


ss 











K, 
Ke? T, P(O UD 





P P(0^ | A,)"6(A^,A, 
> EU LS pars =i, cjlA)2d 
T P(D' TE > PO A)" a 
pa AeA? 
(10-103) 
从 而 
1 K, Tj-1 K, rT 
rape 5 age gd LY y Oj,ij)e(0t,A,) = ajd; (10-104) 
v k=1 tal p=1 K, £ T t= 
pes 


RP, ECOL) COLI) 为 过 渡 概 率 , 名 (0;,i,j) = O/0)PG, = is =f! 05,4), 


£(Ot,i) = (I/) PG, = i,s m jl OL) ; COLA) 为 相对 输出 概率 , pg(0%,X,) = 
P(0LVA,)*8CAL,A)/ [ PCI AY") e 


p 
AeA; 





k, Tj v, PE 
" 1 ^ 1 
d; Ped 24 C „à E (Ot, 1,1) (10-105 ) 
v kzl t= p=1 l t=1 !=1 
pzv 
TEX (10-105) 代入 式 (10-104), 得 
£ Tid v1 & Tis 
K 2, 2,5 (05D - 62, c 2, 2 e (OA ECOLE) 
K, £3 1241 p=1 K, kal t= 
Ue. DAV 
oj x 1 K, Tj-1 N, E 1 K, Th-1 N, (10-106) 
rc. &( 0, ,i,l) 一 e» : eO; , À, JE CORI D 
v kzl t=1 l=1 p=1 p k=1 t=1 l=1 
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HH AD(A)/aC, -e = 0, 得 
1 1 1 D 


Km POI XE) 2 he BEG) pate Tht ee 
2 Cin N( OF Him n) 


CaN Co uis X) 

















1 2 1 1 P(O%| A, ECAR, A, ) 
€ 
A K, ET POL A S P(O A)” 
Base Ae AP 
C N(Co^ IC 
iy BRG) a Coru ag Si ) =e! (10-107) 
Cy ii v p v 
2. Cin NC Onn »Pjm Šim) 
从 而 
K, n) 
K x Y MODUM > LS. 2 oC 9% A, PY (OW) = Che; — (10-108) 
B eh = 
MENU T ne 1 on, GB) 
Kop, POJDI D 为 混合 输出 概率 ,， SOL) = L tH BY 


T, JPCOLT Ay) 


Ca N (ora uy Xiu) (jD) = 2 ak (DBE) — CaN Cok. su X) 
M, sft ks T» P(O? | A ) M, o 


v v v p k v v p 
> Cin N( Okt Mim 1.) 2: C; N( Onn Min Dy ) 
mzl 








jm 


M, 


将 式 (10-108) 两 边 同时 对 1 求 和 ， 并 注意 到 > C? = 1 ， 得 
s 





K, M, Kp T M, 
-ly o sony, m) - a k 22, Loo A06: (Of j,m) (10-109) 
K, 3 £1 p=1 K, £A t=l1m 
ae 
把 式 (10-101) 代入 式 (10-100) , 得 
1 K, Tj T) 
K 7, (0; TOR. Ly Y 90, )y, CO; Jj.) 
v kzl t=1 p=1 K, £ t=1 
C= bts : (10-110) 
1 ~ : E ARAS 
x2; 2, 2,7 (0. m) -6Y LY y Seo AOO1 jm) 
v lt m=1 p=1 K, l tzl m 
pus 


i aDA)/au = 0， 得 
T " " £x 
1 1 1 . C;N(o t? 1525) ) 一 v v 
LY r PCO Ay 2,8 DBD a ES Gs, oai) - 
v k=1 w v v y 
Z Cn N( OF,t sim Zi ) 
> LS J PCOUI A OCALA.) 
€ 
> T ICES Y POIA)” 


2s 
^ i AeA? 
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T» 


CaN (Ora ui i) 








> ap. (BE) 7, X; (Oh, — wn) =0 (10-111) 
2: C; N( OA „t „Mjm son ) 
从 而 
i K mn K B 
x 24 OCOD COL, - ui) D Ly 2, PCO A) 9 i JD Co, =p) = 0 
v kzl t= p=1 K, 在 1 t= 
ae 
(10-112) 
所 以 
Ky. dy Yi K Th 
ES DROID, -85 EY Y GO AIK OID, 
v k=l t=1 p=1 pk=1 t=1 
v Av 
TE E p (10-113) 
1 - i: D 
x $30.; D-e5 g LSS go) sA) P: (OF 7,1) 
v kzl t=1 
i 


H aD(Aa(X) 20, 得 
4 CNCIL us a — Co, = i Co, = 7 
^ ar (DB ,(7) jl k, Hi jl k, Mi k, Mi = 
2 > oh Not) 








K, 
E INO 





y K D 
p P(O?| A,)"ECAL,A, 
EU 1 (Ot | A) OCALA.) 
Ai K, E T PO LA S BOO 
pro AeAP 
T» 


y IN GL Mg» ZD) læ = CoL, = py) (ois — Ma) ] 


33 CaN Cot, uis is) 





> a7, BT, -0 (10-114) 


1 1 AD vos ) v v v v 
K ¢ ` eat = (0,, = uj) Coi, -u;) ] TA 


god iss > eO A, 3 COE, D EX - Col, - uo) (ob, ui) ]) = 0 (10-115) 


p=1 K, £ 1 ż=1 
pss 
所 以 
2 
1 K, Ty vy Ky" 
x 2. 2, POD ~My) (o, ~My)” —@ DY yc (OE AL) I (OF d, D Co, us) Con, =a) 
v k=1 t=1 p=l “p k=1 t=1 


pv 
Vy Ky f 


3: (0, Jt) - "RO 


x n 





€(0;,A,) Y, 01 Jj.) 


Ma 
rd 
T 


HE 


(10-116) 
HPS (10-94), 4 q— oo Bf, A 
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K, 
D'(A,,A) = aS 7 {loeP(O} | A,) - elog maxP( O; | a)} 


v k reat 
1&1 
c ge | A,) - slog maxP(0; 1 A) } (10-117) 
从 而 有 
， 
D*(A) = > D,,A) 
y=] 
V 1 K, 1 
= 2 K à r {1sP(0; | A,) - glog maxP (0; | a)} 
[Ly ig 
AKAT -ey 2, FlogP(O, 10-11 
2x > ples COLLA) 223 lose Oi aD} (10-118) 


WA, = {Oj v = arg maxP(O;l A,) nv, 0; e O} , 不妨 记 4, = 105,0), K, Ot, 
uAn v 


WA 0; e 4,。 

对 比 式 (10-95) 和 式 (10-118) 可 以 发 现 ， 对 于 式 (10-96), ， 所 有 HMM 参数 估计 必 
须 同时 进行 ， 对 于 式 (10-110) ， 各 个 HMM 参数 可 以 单独 估计 ， 其 算法 流程 等 同 于 Baum- 
Welch 算法 。 要 使 六 (A) = max ， 可 重复 上 述 推导 过 程 ， 可 得 到 
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K, T, Kcd 
1 Nat age, Bot 1 x 
Ky 2, & OL) cep 2, &(0; kot i,j) 
a = 一 一 人 past (10-119) 
1 Ky Tk EN 1 K, M71 N, 
"d (0r) ce COLD) 
K, 2 tei 26 $ K, > tel 250 f 
1 K Th 1 K T" 
253 (0, -es > P, O47,1) 
) K, £4 pet K, £a t=1 
Cis is LINES (10-120) 
ji K, Tj; M K, Tj M 
£ k M, E £ k M, "— 
x > (CO, jm) SCA > CO; jm) 
v k=1 t=1 m=l vp k=1 t=1 m=l 
1 K FT 1 K T 
K 2s y COR e, -6x 2 y, C0, JL) or, 
v v k=1 t=1 v k=l t= 
ui = E = (10-121) 
lx a. otk l AW em 
Pa 六 CO) -e F y; CO; Jl) 
K, 2, 2, P (9) k 2, 2, (07 
1 K, Th 1 K T 
KZ. > HOI!) Coka - ui (o, ux) -EK 2. 2. HOLD Co; un) or, us)" 
y v k=1 t=1 v k=1 t=1 
2a | QR 
v2.2, MOD) -ez > 2 HOLD 
K, k=1 t=1 K, £i t=l 


(10-122) 





在 参数 重 估 过 程 中 ， 为 保证 Sia, = 1、》 C, = 1 ， 必 须 对 每 次 估计 的 参数 进行 归 一 化 处 
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Bi: a; = ay] Dag G = 6| S Gy , Hoh aj Cy WANE. 

至 此 ，IMMDE 算法 基本 完成 ， 整 个 算法 概括 如 下 ， 

1) HMM 参数 初始 化 。 采 用 经 典 Baum-Weleh 算法 估计 HMM 参数 ， 把 估计 结果 作为 本 
小 节 IMMDE 算法 中 HMM 参数 的 初始 值 。 

2) 在 训练 初期 ， 由 于 训练 样本 在 各 个 模型 下 输出 概率 相差 不 是 很 明显 ， 而 在 训练 后 期 
样本 输出 概率 相差 明显 ， 因 此 对 参数 进行 自 适 应 变化 ， 即 (Loop) = c^, Xr esq 
数 ，c >1; loop AEM. 

3) 对 每 个 训练 样本 ， 分 别 计算 前 向 概率 、 后 向 概率 、 过 渡 概 率 、 相 对 输出 概率 和 混合 
答 出 概率 ， 并 计算 每 个 训练 样本 的 最 佳 竞争 模型 集 4 ， 重 新 分 配 各 个 模型 训练 样本 集 4。 

4) 利用 式 (10-106) 、 式 (10-110)、 式 (10-113) , 5X (10-116) 和 式 (10-119) ~ 式 
(10-123) ， 重 估 HMM 参数 ， 并 归 一 化 处 理 。 

5) 判断 参数 估计 是 否 达 到 预定 氨 代 步 数 或 预定 精度 ， 若 是 ， 则 结束 ， 否 则 转 步 怠 2) 。 

3. IMMD 参数 估计 算法 在 面部 表情 识别 中 的 应 用 

基于 IMMD 算法 的 面部 表情 识别 系统 流程 如 图 10-25 所 示 。 


表情 图 像 序列 光 流 场 计算 特征 流 提取 
识别 n pM 光 流 场 计 算 特征 流 提取 
Y [zs AN nest 1,57] V il 
BP 神经 网 络 输 出 


图 1025 基于 IMMD 的 HMM 算法 面部 表情 识别 系统 训练 和 识别 流程 

同 10. 4. 3 节 一 样 ， 先 采用 改进 光 流 法 对 面部 表情 图 像 序列 计 算 光 流 场 ， 得 到 表征 面部 
表情 变化 的 光 流 场 。 在 得 到 光 流 场 后， 分别 对 水 平方 向 w 和 垂直 方向 v 的 运动 图 像 进 行 归 一 
化 和 标准 化 ， 采 用 PCA 法 分 别 求 取 w 方 向 和 w 方 向 的 基底 ， 表 情 图 像 的 特征 向 量 是 有 w 和 vw 
分 量 的 投影 系数 串联 得 到 。 对 于 含有 某 种 表情 变化 的 图 像 序列 ， 先 依次 求 出 各 帧 图 像 中 的 速 
RIEKA u, v 基底 上 的 投影 ， 并 把 u,v 串联 起 来 构成 面部 表情 特征 向 量 ， 整 个 序列 就 是 
面部 表情 特征 流 ， 用 来 作为 HMM 输入 信号。 

为 了 充分 利用 HMM 和 BP 神经 网 络 的 优点 ， 本 小 节 仿 照 10.4.3 节 构 建 了 基于 IMMIE 的 
HMM 和 BP 神经 网 络 混合 分 类 器 ， 把 BP 神经 网 络 作为 二 次 分 类 器 ( 见 图 10-26) ,其 算法 过 程 如 下 : 

1) 利用 改进 光 流 算法 计算 面部 表情 图 像 序列 的 光 流 场 ， 并 对 光 流 场 利用 主 成 分 分 析 
(PCA) 进行 数据 压缩 ， 得 到 面部 表情 的 特征 向 量 序列 。 

2) 对 上 述 得 到 的 特征 向 量 序列 ， 利 用 IMMDE 算法 训练 HMM, 

3) 把 各 个 HMM 输出 概率 组 合成 一 个 新 的 向 量 ， 并 把 它 作 为 BP 神经 网 络 的 输入 信号， 
训练 BP 神经 网 络 分 类 器 。 

4. 实验 结果 及 分 析 

从 CMU 人 脸 数据 库 中 ， 随 机 抽取 了 14 个 人 的 面部 表情 图 像 序列 ， 并 把 LO 人 的 面部 表 
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| 表情 识别 结果 | 
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图 10-26 IMMDE-HMM/BP 神经 网 络 混 合 分 类 器 





情 图 像 序列 作为 训练 样本 ， 其 余 4 个 人 的 面部 表情 图 像 作为 测试 样本 。 对 每 种 表情 图 像 分 别 
构建 了 不 同 的 HMM，HMM 均 选 择 左右 结构 ， 其 状态 数 为 4， 各 个 状态 取 高 斯 混合 元 个 数 为 
M =3， 分 别 利用 式 (10-106)、 式 (10-110) , 3È (10-113) , sk (10-116) 和 式 (10-118) 
~ 式 〈10-122) 训练 HMM。 把 HMM 输出 作为 BP 神经 网 络 分 类 天 的 输入 信号 ， 再 训练 BP 
































神经 网 络 分 类 器 。 其 中 ，BP 神经 网 20 

络 输入 输出 节点 均 为 6 个 ,其 隐 节 点 。 1, Hy qur 

数 通 过 实验 调整 。 为 便于 比较 ， 同 时 m. DN x, LAS 

采用 Baum-Welch 法 训练 HMM, Hem H faw ee 

试 结果 如 图 1027、 图 10-28 所 示 。 IE Eol inis Li, 

H, IMMDEI 指 基 于 式 (10-106), = 

st (10-110), xk (103113). xk — 4 

(10-116) Bj HMM 训练 算法 ， | 

IMMDE2 指 基 于 式 (10-118) ~ x 

(10-122) 的 HMM 训练 算法 ，MMDE 1 2 5 6 

HEER (10-93) p HMM IAE Hg RE Se EX deo 惊奇 

法 。 图 10-27 基于 Hessian 矩阵 光 流 法 的 表情 特征 提取 下 , 
图 10-27 所 示 为 采用 基于 Hessian IMMD 法 与 其 他 方法 的 比较 

和 矩阵 的 光 流 算法 提取 面部 表情 光 流 场 ， 经 PCA 变换 得 到 面部 表情 特征 流 ， 构 建 了 IMMDE- 











HMM/BP 神经 网 络 分 类 器 。 工 、 开 、 焉 、K 分 别 为 采用 IMMDEIZBP 神经 网 络 、IMMDE2/ 
BP 神经 网 络 、MMDF/ZBP 神经 网 络 和 Baum-Welch/BP 神经 网 络 四 种 方法 的 识别 结果 。 方 法 
V 为 采用 Lucas-Kanade 光 流 法 提取 表情 特征 流 ， 采 用 Baum-Welch/BP 神经 网 络 分 类 器 得 到 
的 识别 结果 。 

图 10-28 所 示 为 采用 非 刚体 光 流 算法 提取 面部 表情 光 流 场 和 采用 PCA 变换 得 到 面部 表情 
特征 流 ， 构 建 了 IMMIE-HMM/BP 神经 网 络 分 类 器 。IT、 卫 、 五 、V、V 分 别 为 采用 
IMMDE1/BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMDE1/BP 神经 网 络 + 二 阶 div-curl 约 
束 光 流 法 、IMMDE2/BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMDE2/BP 神经 网 络 + 二 阶 
div-curl 约束 光 流 法 和 Baum-Welch/BP 神经 网 络 + Lucas-Kanade 光 流 法 的 五 种 方法 的 识别 结 
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图 10-28 ”基于 非 刚体 光 流 法 的 表情 特征 提取 下 , 
IMMD 法 与 其 他 方法 的 比较 























由 图 10-27, K| 10-28 可 以 看 出 ， 四 种 方法 对 悲伤 、 惊 奇 、 厌 恶 三 类 识别 率 较 高 ， 这 主 
要 是 因为 这 三 类 有 着 较 之 其 他 类 别 更 明显 的 几何 特征 ， 如 惊奇 表情 的 眼睛 张 得 比较 大 ， 上 了 眼 
皮 被 择 高 ， 下 眼皮 下 落 ， 其 嘴巴 也 大 幅 张 开 ， 以 至 于 层 和 齿 分 开 。 相 比 之 下 ， 高 兴 和 怒 惯 这 
两 类 识别 率 普 遍 较 低 ， 只 有 60% 左右 ， 主 要 是 因为 高 兴 和 侦 惯 在 表现 时 脸 部 器 官 有 较 多 相 
似 运动 特征 ， 如 两 者 的 嘴巴 部 分 都 处 于 张 开 状 态 ， 且 张 开 程度 相似 ， 在 试验 中 发 现 影响 高 兴 
识别 率 的 主要 是 恐惧 ， 而 影响 恕 惧 类 表情 识别 率 的 除了 高 兴 外 ， 还 有 厌恶 和 愤 仍 两 类 表情 。 
此 外 ， 由 图 也 可 看 出 ， 本 节 提 出 的 两 种 改进 HMM 方法 CIm) 比 其 他 方法 〈 亚 、IV 和 
V) 对 各 类 表情 的 识别 效果 均 有 不 同 程度 的 提高 。 由 于 测试 时 采用 的 是 陌生 人 脸 的 六 类 表 
情 ， 这 些 人 脸 在 训练 样本 中 未 出 现 ， 由 这 点 可 以 进一步 体现 本 节 所 述 方法 的 鲁 棒 性 。 

如 图 10-29, BI 10-30 所 示 ， 所 有 结果 均 是 在 采用 10 个 人 的 表情 图 像 序 列 作为 训练 样本 
时 得 到 的 。 为 了 进一步 探讨 参与 训练 人 数 和 测试 结果 的 关系 ， 分 别 采 用 6 ~ 10 个 人 的 样本 参 
与 训练 分 类 器 ， 其 余人 的 表情 图 像 序列 作为 测试 样本 ， 其 结果 如 图 10-29、 图 10-30 所 示 。 

如 图 10-29 所 示 ,“+”“o”“x”“ 口 ”表示 的 曲线 分 别 为 采用 IMMDEL/BP 神经 网 络 、 
IMMDE2/BP 神经 网 络 、MMDE/BP 神经 网 络 和 Baum-Welch/BP 神经 网 络 方法 在 采用 Hessian 
和 矩阵 光 流 法 提取 表情 特征 流 后 得 到 的 分 类 结果 ,， “YV ”为 采用 Lucas-Kanade 光 流 法 提取 表情 
特征 流 ， 并 采用 Baum-Welch/BP 神经 网 络 分 类 器 得 到 的 识别 结果 。 如 图 10-30 IR, “+” 
"o" "x" "[]" “V7” SIA IMMDEI/BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、IMMDE1/ 
BP 神经 网 络 + 二 阶 div-curl 约束 光 流 法 、IMMDE2/BP 神经 网 络 + 一 阶 div-curl 约束 光 流 法 、 
IMMDE2/BP 神经 网 络 + 二 阶 div-curl 约束 光 流 法 和 Baum-Welch/BP 神经 网 络 + Lucas-Kanade 
光 流 法 等 五 种 方法 在 不 同 训练 样本 集 下 的 识别 结果 。 

如 图 10-29, K| 10-30 所 示 ， 随 着 参与 训练 的 人 数 增 加 ， 各 种 方法 识别 率 呈 上 升 趋势 ， 
在 参与 训练 人 数 较 少 时 (6 人 ) ， 本 节 所 述 的 改进 的 HMM 方法 能 达到 7096 以 上 的 识别 率 ， 
而 其 他 方法 则 识别 率 只 有 60% ~70% ， 随 着 参与 训练 人 数 的 增多 ， 本 节 所 述 的 方法 一 直 保 
持 较 高 识别 率 ， 可 以 预见 ， 随 着 参与 训练 人 数 的 继续 增多 ， 本 节 所 述 的 改进 的 HMM 方法 识 
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10-29 ”基于 Hessian 矩阵 光 流 法 的 表情 特征 提取 下 ， 
参与 训练 人 数 与 识别 率 关系 曲线 
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图 10-30 ”基于 非 刚体 光 流 法 的 表情 特征 提取 下 , 
参与 训练 人 数 与 识别 率 关系 曲线 








表 10-7 为 各 种 方法 在 参与 训练 的 人 数 为 10 时 所 有 表情 类 的 识别 结果 。 同 时 引入 参考 文 
献 [24 ] 所 述 的 作为 对 比 。 参 考 文献 [24 ] 提供 的 方法 实质 上 是 一 种 静态 的 表情 识别 方法 ， 而 
本 方 所 述 的 改进 方法 是 一 种 动态 表情 识别 方法 ， 因 此 识别 效果 有 明显 提高 。 同 时 ,采用 的 是 
改进 的 HMM 训练 方法 ， 因 此 该 方法 较 之 其 他 动态 方法 ( MMIE + BP 神经 网 络 和 Baum- Welch 
+ BP 神经 网 络 方法 ) 也 有 一 定 改善 。 
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% 10-7 采用 不 同方 法 的 面部 表情 识别 结果 比较 (%) 
a IMMDE1/BP IMMDE2/BP MMDE/BP Baum-Welch/BP 参考 文献 
ee 神经 网 络 神经 网 络 神经 网 络 神经 网 络 [24] 
Ke Hessian 矩阵 光 流 
85.9 83. 65 80.6 77.1 
法 
一 阶 div-curl 24 R F JE 
86.2 85.3 82.4 80. 6 65 
刚体 光 流 法 
= By div-curl 约束 下 非 
二 阶 divoul 约束 下 非 87.8 86.4 84.5 83.2 
刚体 光 流 法 
5. 小结 





本 小 节 提 出 了 一 种 基于 改进 MMD 的 HMM 训练 算法 ， 并 把 它 应 用 于 面部 表情 识别 中 。 
该 方法 相对 于 传统 算法 ， 具 有 如 下 优点 : 

1) AX 10-7 可 以 看 出 ， 动 态 表情 识别 方法 的 识别 率 高 于 静态 表情 识别 方法 ， 这 主要 是 
因为 动态 识别 方法 提取 表情 图 像 变 化 的 时 间 和 空间 信息 ， 而 静态 识别 方法 只 提取 表情 图 像 的 
空间 信息 ， 而 忽略 了 表情 图 像 变化 的 动态 信息 。 

2) 由 于 采用 了 改进 的 光 流 算法 用 于 提取 面部 表情 特征 流 ， 使 得 提取 的 表情 运动 信息 更 
为 准确 ， 从 而 保证 了 识别 效果 的 提高 。 

3) IMMDEI 和 IMMDE2 训练 算法 充分 利用 了 所 有 训练 样本 ， 在 相同 训练 样本 集 下 ， 
用 改进 MMD 训练 HMM 得 到 的 模型 更 为 精确 。 

4) Baum-Welch 训练 算法 只 注重 对 本 类 样本 的 建 模 能 力 ， 忽 略 了 对 其 他 类 样本 的 鉴别 能 
力 ， 如 果 出 现 与 本 类 样本 相似 的 其 他 类 样本 ， 则 该 HMM 就 很 难 对 该 样本 作出 准确 分 类 。 
IMMDE 方法 引入 最 佳 竞争 模型 集 作为 惩罚 项 ， 把 提高 模型 鉴别 能 力作 为 模型 参数 优化 目标 ， 
使 得 “已 类 模型 输出 概率 最 大 ， 非 已 类 模型 输出 概率 最 小 ， 因 而 可 以 大 大 提高 识别 能 力 ; 
同时 ， 由 于 MMD 准则 函数 定义 更 为 合理 ， 使 得 系统 识别 结果 较 之 原始 MMD 法 有 明显 的 改 
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第 11 ee 人 脸 合 成 实例 


本 章 通过 三 个 实例 : 基于 视频 的 人 脸 表 情 合成 、 三 维 虚拟 人 脸 模型 和 虚拟 人 脸 部 年 龄 仿 
真 ， 来 进一步 前 述 人 脸 合成 与 表情 合成 的 方法 ， 并 给 出 具体 的 实现 过 程 。 首 先 ， 以 Candide 
模型 作为 人 脸 模 型 框架 ， 在 Visual C ++ 环境 中 结合 OpenGL 技术 ,采用 线 积分 卷 积 法 进行 纹 
理 的 向 量 场 映射 ， 通 过 控制 AU 所 对 应 的 FAP 来 实现 表情 的 合成 ， 完 成 了 一 个 具有 皮肤 纹理 
和 面部 表情 变化 的 特定 人 脸 模 型 。 在 此 基础 上 ， 把 人 脸 表情 建 模 模块 与 表情 识别 模块 相 结 
合 ， 构 建 了 一 个 实时 表情 信息 获取 与 重 构 平 台 ， 此 平台 能 够 较 准 确 地 识别 三 种 基本 表情 
高兴、 平静 、 人 惊讶 ) ， 并 对 所 识别 表情 进行 实时 重 现 ， 实 现 了 基于 视频 的 人 脸 表 情 建 模 。 
然后 ， 进 一 步 结 合 3DS MAX 模型 ， 依 据 特 征 点 与 网 格 模型 的 思想 ,合成 了 一 个 更 具 真 实感 
的 三 维 虚 拟人 脸 ， 并 对 其 进行 脸 部 特征 调整 及 表情 变化 。 


11.1. 基于 视频 的 人 脸 表情 合 


视频 信息 对 人 类 的 信息 交流 尤为 重要 ， 在 网 络 视 频传 输 ， 尤 其 是 无 线 视频 传输 中 ， 为 了 
充分 利用 有 限 的 网 络 带 宽 ， 必 须 对 视频 信息 进行 图 像 压 缩 。 为 此 ， 人 们 提出 了 人 脸 表情 参数 
化 的 面部 压缩 思想 ， 力 图 在 发 送 端 ， 从 实际 视频 实时 提取 面部 形状 、 表 情 参数 ， 在 接收 端 实 
时 恢复 相应 的 参数 ， 得 到 面部 的 表情 结果 。 

图 像 处 理 、 计 算 机 视觉 和 计算 机 图 形 学 是 计算 机 科学 中 与 人 类 的 视觉 感知 直接 相关 的 学 
科 ， 其 中 人 脸 的 识别 、 处 理 、 生 成 一 直 是 研究 的 热点 和 难点 。 在 图 像 处 理 中 ， 主 要 对 图 像 进 
行 各 种 转换 、 分 析 ， 获 取 满 足 不 同 场合 要 求 的 、 高 质量 的 图 像 或 形变 结果 。 计 算 机 视觉 主要 
利用 人 工 智能 或 训练 学 习 等 机 制 ， 对 人 脸 图 像 或 视频 进行 分 析 、 识 别 ， 提 取 人 脸 的 全 局 、 局 
部 、 静 态 及 动态 特征 。 计 算 机 图 形 学 主要 从 人 脸 的 生理 机 理 和 几何 结构 出 发 ， 模 拟 虚 拟人 
物 ， 并 实时 模拟 虚拟 人 物 的 人 脸 表 情 。 本 闻 着 眼 于 不 同学 科 的 交叉 和 融合 ， 结 合 表情 识别 模 
块 ， 以 计算 机 图 形 学 进行 人 脸 建 模 与 表情 合成 。 


11.1.1 Candide 模型 






















































































Candide 模型 由 Linkoping 大 学 的 Mikael Rydfalk 在 1987 年 建立 。Candide 模型 是 一 个 中 
性 模型 ， 即 它 不 是 特定 人 的 网 格 模型 。 此 模型 包括 113 个 关键 点 和 168 个 三 角 面 片 ， 控 制 参 
数 由 静态 人 脸 定义 参数 (FDP) 和 动态 人 脸 动 画 参数 (FAP) 组 成 。 静 态 参 数 用 来 描述 不 同 
人 脸 之 间 的 差异 ， 动 态 参数 则 用 于 控制 脸 部 的 动作 。 此 模型 关键 点 比较 少 ， 可 以 快速 地 描述 
人 脸 静 态 特 征 和 脸 部 动作 ， 并 且 根 据 动态 参数 可 以 进行 动作 编码 ， 在 视频 但 输 方面 应 用 较 广 
泛 。 它 是 一 个 面向 FACS 的 参数 化 模型 ， 仅 由 少量 的 三 角形 〈 约 100 +) 定义 ,便于 快速 计 
算 和 重 构 。 

在 建立 三 维 网 格 模型 时 ， 首 先 要 定义 顶点 和 表面 ， 每 一 个 三 角形 表面 的 顶点 都 是 按照 逆 
时 针 的 顺序 来 定义 的 ， 如 图 11-1 所 示 。 
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a) b) 
AL 11-1 三 维 网 格 模 型 中 的 顶点 和 面 
a) 顶点 示例 b) 表面 与 顶点 的 关系 
在 真实 度 方面 ， 一 个 三 维 人 脸 模 型 应 该 符合 两 个 标准 : 静态 真实 感 和 动态 真实 感 。 静 态 











真实 感 是 指 静 止 的 人 脸 从 任 一 角度 看 都 具有 真实 感 ; 
动态 真实 感 是 指 人 脸 的 动作 和 毛发 到 达 逼 真 自然 的 程 
度 。 这里， 我 们 只 讨论 静态 真实 感 的 设计 。 实 验证 
明 ，100 个 三 角形 已 经 足够 构建 一 个 完整 的 人 脸 网 格 INS 
模型 ， 并 可 以 适应 不 同 的 人 脸 贴图 。 表 11-1 列 出 了 
Candide 模型 76 个 顶点 (编号 : 0 ~75) 的 三 维 坐 
il, 

在 Visual C++ 环境 下 ， 借 助 OpenGL RUBE, W E M E e oe 
步 得 到 的 Candide 模型 如 图 11-2a PER RART I uas o gusto 
以 实现 网 格 模型 按 不 同 对 称 轴 的 旋转 ， 即 可 以 得 到 不 
同 角 度 的 网 格 视图 。 图 11-2b 、e 分 别 为 向 右 转 过 30* 和 向 左 转 过 90* 的 Candide 模型。 

表 11-1 Candide 模型 顶点 列表 
































































































































顶点 编号 X Y Z 注释 顶点 编号 X Y Z 注释 
0 0 250 40 左 半边 脸 11 50 245 10 
1 40 190 90 12 105 215 20 
2 0 130 120 13 100 150 70 
3 0 70 130 14 146 130 20 
4 0 40 120 15 120 70 70 
5 0 -50 180 16 90 92 110 
6 0 -70 130 17 30 70 120 
7 0 一 100 137 18 90 80 110 
8 0 -120 138 19 70 60 100 
9 0 一 160 120 20 108 40 80 
10 0 一 210 140 21 70 53 104 























































































































( 续 ) 
顶点 编号 x Y Z 注释 顶点 编号 X Y Z 注释 

22 70 34 103 49 -90 92 110 

23 40 40 100 50 -30 70 120 

24 70 30 100 51 -90 80 110 

25 30 -40 110 52 -70 60 100 

26 50 - 60 104 53 —108 40 80 

27 120 -40 50 54 -70 53 104 

28 150 -30 20 55 -70 34 103 

29 140 40 20 56 -40 40 100 

30 110 —190 60 57 -70 30 100 

31 70 -110 80 58 -30 340 110 

32 40 — 180 100 59 -50 - 60 104 

33 10 -90 136 60 -120 -40 50 

34 -40 190 90 右 半 边 脸 61 -150 -30 20 

35 0 130 120 62 -140 40 20 

36 0 70 130 63 -110 - 190 60 

37 0 40 120 64 -70 -110 80 

38 0 -50 180 65 -40 — 180 100 

39 0 -70 130 66 -10 -90 136 

40 0 — 100 137 FÄRRE 67 80 50 95 瞳孔 

41 0 - 120 138 68 80 35 95 

42 0 - 160 120 69 -80 50 95 

43 0 -210 140 70 -80 35 95 

44 -50 245 10 71 61 50 102 

45 - 105 215 20 72 61 35 102 

46 - 100 150 70 73 -61 50 102 

47 - 146 130 20 74 -61 35 102 

BRAD IK IF 
48 - 120 70 70 75 0 - 100 50 
的 背景 
































11.1.2. ”标准 人 脸 模 型 到 特定 人 脸 模 型 的 变换 


1. 特征 点 的 变换 
(1) 全 局 变换 “三维 人 脸 模 型 上 的 任意 一 点 已 (X,，Y，Z) 以 无 穷 小 的 欧 拉 角 向 其 目 
标点 P’ (X', Y, Z') 作 刚 性 运动 ， 可 以 描述 为 





xı [| 1 -A0; Ady TTS, 0 OJy Ty 
Y |=| A6; 1 -Abor || 0 S OF Y] 4+] T, (11-1) 
Zi | -A0, Ay 1 0 0 S,|LZ T, 
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AF, Oy, 0, 和 0z 是 围绕 X、Y AZ 轴 的 旋转 角度 ; Sy. S, MS, 分 别 是 比例 因子 ; (Ty, 
T,, T,)' 是 平移 向 量 。 全 局 变换 可 以 等 价 地 看 成 是 对 这 9 个 刚性 运动 参数 的 估计 。 进 行 重 
直 影 射 后 ， 可 以 通过 计算 三 维 人 脸 模型 到 二 维 人 脸 中 心 的 距离 来 得 到 平移 向 量 。 让 Pi. PL. 
P.. P, 分 别 代 表 左 眼中 心 点 、 右 眼中 心 点 、 两 眼 的 中 点 以 及 嘴 部 的 中 心 点 ，P1 、P;、P'、 
忆 , 是 三 维 人 脸 模型 中 二 维 投影 的 相关 特征 。 对 比例 因子 Sx 和 $y 进行 了 如 下 的 定义 : Sy = 
| P,-P.|/ [Pi PLI, Sys Pe -Pa l / PP。 在 平面 帧 中 ， 脸 的 深度 是 不 可 见 
的 ， 为 了 确保 自动 性 ，$z 将 应 用 线性 膨胀 性 取 Sy ALS) 的 平均 值 。 头 部 的 倾斜 角度 0; 可 以 
过 测量 线段 PP, 和 二 维 水 平 轴 之 间 的 夹 角 获得 。0% 可 以 应 用 基于 横 截面 的 方法 来 获得 。 
至 于 bx， 由 于 缺少 深度 信息 ， 所 以 我 们 假设 头 部 与 立轴 是 平行 的 ， 即 bx =0。 

(2) 局 部 变换 4 个 脸 部 特征 ， 如 本 系统 中 的 眉毛 、 下 巴 、 眼 睛 和 嘴 ， 将 分 别 得 到 变 
换 ， 如 图 11-3 所 示 。8 PEETA CREAR) 用 来 代替 提取 出 的 8 个 眉毛 特征 点 。 在 下 
巴赫 换 中 ， 三 维 人 脸 模 型 的 5 个 下 巴 节点 (黑色 圆 点 ) 通过 伸缩 运动 与 提取 出 的 二 维 下 巴 
轮廓 相 吻 合 。 通 过 对 人 体 测量 学 和 肌肉 运动 的 研究 ， 中 间 的 三 个 圆 点 是 与 上 面 的 两 个 方形 节 
点 相连 的 ， 而 另外 两 个 圆 点 也 和 对 角 的 方形 节点 相连 。 嘴 部 变换 包括 仿 射 转换 (Affine 
Transformation) 和 轮廓 转换 。 所 有 的 嘴 部 节点 包括 在 一 个 矩形 内 〈 见 图 11-3) ， 通 过 二 维 仿 
射 转换 得 到 ， 这 需要 计算 已 经 提取 的 平面 嘴 部 和 二 维 嘴 部 对 于 三 维 人 脸 模型 投射 之 间 的 差 
别 ， 其 中 投射 是 在 平移 、 比 例 和 旋转 三 方面 进行 的 。 

仿 射 转换 不 能 保证 嘴 部 轮廓 的 匹配 ， 为 了 保证 上 半 嘴 层 的 自然 形状 ， 所 有 轮廓 上 的 节点 
需要 通过 一 个 常数 转换 成 提取 的 二 维 轮 廓 ， 该 参数 是 通过 估计 平面 人 脸 上 半 嘴 唇 外 部 轮廓 线 
中 间 点 和 投射 到 三 维 人 上 脸 模型 的 二 维 中 相应 点 之 间 的 距离 得 到 的 。 眼 部 转换 的 原则 与 嘴 部 转 
换 的 原则 一 致 。 对 人 脸 模 型 处 于 两 个 椭圆 中 的 眼 部 各 节点 进行 仿 射 转换 ， 然 后 根据 已 经 提取 
的 眼 部 轮廓 来 调整 人 脸 模 型 的 眼皮 。 然 而 ， 眼 睛 必须 作为 两 个 独立 的 物体 来 处 理 ， 即 用 两 组 
独立 的 参数 集合 。 另 外 ， 这 里 应 用 了 线性 插值 来 调试 这 些 非 边界 节点 。 

2. 非特 征 点 的 变换 

在 完成 对 特征 点 的 三 维 坐标 调整 之 后 ， 模 型 调整 即 为 确定 非特 征 点 
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的 位 置 。 我 们 利用 适当 的 宁 信 算法 来 计算 非特 和 点 的 三 维 坐 标 。 非 特征。 RRE 
点 调整 可 采用 的 方法 有 自由 变形 、 径 向 基 函 数 内 插 、 弹 性 匹配 等 。 其 人 更 刚直 
中 ， 自 由 变形 算法 较为 复杂 ， 径 向 基 丽 数 内 插 具 有 良好 的 平滑 性 , 但 需 AR 





注意 保证 内 插 的 平稳 性 。 s 

本 系统 利用 径 向 基 插值 算法 计算 非特 征 点 的 三 维 坐标 。 这 样 ， 问 题 PU Candide TA 
就 转化 为 已 知 特征 点 x, MUR S s(x) = 所 zi) ,i=1.2，…,N, 求 径 向 基 NOPE 
函数 (RBF) ， 即 























s(x) = p(x) + > Aig lx -=x ||) (11-2) 
AF, s WEERA HEE x 为 对 应 网 格 顶 点 的 三 维 坐标 ， 因 变量 为 此 点 的 位 移 量 ; p 
为 低 阶 多 项 式 ; A; 为 RBF 系数 ， 即 网 格调 整 需要 确定 的 模型 参数 ; 基 油 数 pg( ) 为 一 个 实 
PRL x, 是 RBF 中 心 ， 一 般 为 与 模型 特征 点 对 应 的 空间 坐标 。 
令 低 阶 多 项 式 p 的 基 为 p= ipi, cns. Pit, MOEN ABA em de, cns cf, WA (11- 
2) 以 矩阵 形式 表示 为 
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A pirA J 
BEI d an 
式 中 ， Az[A;] ; A, =9( || x; 一 条 I ) ; Pj - pj(x;); £,J 74,2, 9,5 
Ht, RETTE REIA, c, SATII BA eT BEDA Let gx B0 456 p] AE PRÉC s(x)。 对 于 
RBF 的 选取 ， 在 我 们 的 实验 中 ， 选 用 了 高 斯 函数 ，a HU 1/64, B 
g(r) =e a>0 (11-4) 


























1.1.3 纹理 贴图 


构建 完 网 格 模型 之 后 ， 要 给 网 格 加 上 纹理 ,就 要 使 用 纹理 映射 技术 。 纹 理 映 射 技术 是 真 
实感 技术 的 一 个 重要 方面 ， 人 脸 表面 的 纹理 具有 颜色 和 几何 纹理 双重 属性 。 

在 贴 纹 理 前 ， 必 须 确 定 纹理 与 人 脸 的 相对 关系 ， 即 在 场景 中 生成 实体 时 ， 要 同时 用 到 纹 
理 坐 标 和 几何 坐标 。 对 于 一 个 二 维 纹理 来 说 ， 纹 理 坐标 在 闷 和 了 方向 上 都 是 0.0 ~1.0。 这 
样 ， 在 设计 纹理 时 就 要 小 心 ， 要 使 其 左右 、 上 下 各 边 能 够 很 好 地 拼 为 一 体 ， 即 要 实现 纹理 图 
像 的 无 颖 拼接 。 在 应 用 中 ， 首 先 选择 一 个 图 像 ， 由 于 被 用 作 纹 理 图 像 的 宽 和 高 必须 是 2 的 
需 ， 所 以 在 预 处 理 部 分 ， 须 将 其 转换 为 符合 要 求 大 小 的 格式 ， 如 256 x256 像素 ， 并 将 对 应 
的 分 量 依次 读 和 人 缓存 区 。 

在 初始 化 时 ， 对 纹理 映射 的 各 种 参数 进行 设置 ， 要 对 相对 的 几何 坐标 同时 给 出 对 应 的 纹 
理 坐 标 ， 我 们 采用 了 线 积分 卷 积 法 来 进行 纹理 的 向 量 场 映 射 。 设 向 量 场 中 任 一 点 处 的 局 部 特 
性 ， 由 一 个 卷 积 和 函数 e (Cw) 沿 一 条 从 该 点 开始 向 前 向 后 跟踪 出 的 一 段 流 线 积分 的 结果 决定 ， 
则 定点 (x，y) 的 纹理 值 a, y) 可 由 下 式 得 出 : 


iCal 
Ly) = —— (11-5) 
A 
AH, (x, y) GS, y) BA TRIBU AD a ER E HE Ae Be Er Ze EI ER s Oxo. Y) 为 像素 点 (xi， 
y,) RERO ADH; h, 为 流 线 段 穿 过 像素 (x;, y) 时 在 其 内 的 长 度 。 经 这 样 处 理 后 , 就 可 以 实 
具有 较 强 的 真实 感人 脸 纹理 。 

在 我 们 的 系统 中 ， 人 脸 位 于 一 个 256 x256 像素 的 纹理 贴图 的 中 心 ， 该 图 可 以 从 CIF 视 
频 帧 中 自动 获得 。 考 虑 到 处 理 的 方便 ， 人 脸 需 要 尽 可 能 地 出 现在 纹理 贴图 的 中 心 位 置 。 事 实 
上 ,在 视频 帧 中 ， 人 脸 的 位 置 很 难 真 正 处 于 中 心 位 置 ， 因 为 讲话 者 会 随机 地 晃动 ， 所 以 对 视 
频 帧 中 人 脸 的 位 置 需要 加 以 研究 。 

我 们 将 水 平和 垂直 轴 分 为 三 段 ， 其 中 水 平方 向 上 为 Zr/2 和 (Lx -Lr/2), 垂直 方向 上 为 
L,/2 和 (六 -ZX2)。 这 里 Zr2 表示 纹理 贴图 的 一 半 宽 度 (此 处 为 128 RR), Ly IL, 分 别 是 
CIF 视频 帧 的 宽度 和 高 度 。 这 四 个 标记 可 以 将 视频 帧 分 解 为 九 个 区 域 。 根据 中 心 人 脸 ( Cy， 
Cy) 相对 于 这 些 区 域 的 位 置 , 可 以 决定 如 何 进行 纹理 贴图 。 例如 ,如果 Cx <Lr/2, 并 且 C, < 
L, «2, 则 坐标 (Lx/2, Li/2) 可 以 认为 是 纹理 贴图 的 中 心 ; 而 当 £,/2 < Cy <Ly - L,72, FFA 
Lr/2<Cy<Ly -Zr2 时 , 纹理 贴图 的 中 心 被 认为 在 (Cy, Cx)。 根 据 自动 产生 的 纹理 贴图 ， 三 
维 人 脸 模型 的 纹理 坐标 可 以 通过 将 三 维 坐标 系 映 射 进 入 到 纹理 空间 而 得 到 。 根 据 以 上 和 前 面 
的 处 于 人 脸 模 型 转换 中 的 个 性 化 三 维 节点 坐标 ， 最 终 可 以 合成 一 个 特定 的 三 维 人 脸 模 型 。 我 
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MIAR PERA Y — 95K AE i, 纹理 贴图 的 示意 如 图 11-4 所 示 。 按 照 上 述 纹 理 贴图 的 原 
则 和 算法 ， 最 终 纹理 贴图 的 结果 如 图 11-5 Bra. 











a) b) c) 


图 11-4 纹理 贴图 示意 
a) Candide 模型 b) 视频 截图 c) 合成 示意 

















a) b) c) 





图 115 ”纹理 贴图 结果 
a) 合成 结果 b) 向 右 转 过 30” c) 向 左 转 过 90° 


11.1.4 面部 表情 的 运动 计算 及 表情 合 

人 脸 建 模 与 表情 合成 是 计算 机 图 形 学 领域 的 一 个 研究 热点 ， 吸 引 了 许多 图 形 学 工作 者 ， 
也 取得 了 一 些 巨大 的 成 果 。FACS 包含 44 2H AU. (动作 单元 )， 可 以 以 单独 或 者 组 合 的 方式 
表现 人 脸 的 各 种 表情 。 每 一 个 AU 都 是 由 面部 的 一 束 或 几 束 肌 肉 伸缩 产生 的 ， 同 时 每 一 表情 
可 表示 为 若干 个 AU 共同 作用 的 结果 。 我 们 借用 FACS 中 AU 的 概念 ，AU 代表 面部 表情 的 一 
个 微小 的 变化 。 这 种 变换 取决 于 对 肌肉 的 微小 并 且 明 显 的 驱动 。 使 用 AU 向 量 (AU Vector, 
AUV) 代表 人 物产 生 的 面部 动作 。AUYV 表示 AU 向 量 的 集合 。 当 一 个 AUV 被 激活 后 ， 它 描 
述 了 其 涉及 的 顶点 将 如 何 进行 运动 。 表 11-2 是 六 种 基本 表情 的 AU 组 合 。 

表 11-2 六 种 基本 表情 的 AU 组 合 


表 请 AU 表 d AU 





















































高 兴 AU16 + AU12 恐惧 AUI2 + AUI 
悲伤 AU1 + AU15 愤怒 AU27 +AU4 +AU9 
惊奇 AU26 + AUI 厌恶 AUI2 +AU4 +AU9 

















WK 11-2 所 示 ， 我 们 分 别 选择 了 最 具有 代表 性 的 ， 并 且 对 表情 的 变化 起 主导 作用 的 12 
组 AU 作为 合成 人 脸面 部 表情 的 12 个 基本 单元 。 每 一 个 AU 控制 了 不 同 的 节点 ， 例 如，AU1 
控制 的 节点 有 4 个 ,分 别 为 17、50、15、48; AU9 控制 的 节点 有 19 个， 分 别 为 5、25 、58、 
26. 59. 33, 66, 16, 49, 17, 50, 18, 51, 22, 55, 68, 70, 72, 、74 。 每 个 节点 的 三 维 坐 
标 见 表 11-3, 
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表 11-3 AU 和 所 对 应 的 节点 









































编 5 节点 个 数 节 点 
AUI 4 17, 50, 15, 48 
AU2 8 16, 49, 18, 51, 15, 48, 17, 50 
AUIG 3 40, 8, 9 
AU27 8 40, 8, 9, 10, 30, 63, 32, 65 
AU4 4 17, 50, 16, 49, 18, 51, 15, 48, 21, 54, 67, 69, 71, 73 
AU9 19 5, 25, 58, 26, 59, 33, 66, 16, 49, 17, 50, 18, 51, 22, 55, 68, 70, 72, 74 
AUIO 7 7, 25, 58, 26, 59, 33, 66 
AU20 9 8, 31, 64, 32, 65, 33, 66, 26, 59 
AUI2 12 31, 64, 25, 58, 26, 59, 22, 55, 68, 70, 72, 74 
AU18 7 31, 64, 33, 66, 7, 40, 8 
AU45 12 21, 54, 22, 55, 67, 69, 71, 73, 68, 70, 72, 74 
AUIT 4 9, 8, 7, 40 





(中 性 状态 





spin. 这 





编 号 
AUI 


AU2 





5) 的 位 置 变化 。 根 据 参 考 文献 [2] 所 述 的 分 类 和 统计 方 
， 我 们 可 以 将 AU 与 FAP 的 对 应 关系 进 和 


里 不 再 熬 述 每 一 个 相关 列表 中 的 详细 内 容 ， 仅 列举 其 中 的 几 项 来 说 明 面 部 表情 
运动 计算 的 过 程 。 每 个 AU 都 对 应 着 一 个 到 多 个 FAP， 见 表 11-4 


在 确定 好 需要 控制 的 AU 后， 要 统计 代表 AU 运动 的 运动 向 量 所 包含 的 节点 在 每 一 种 表 
情 中 ， 相对 于 初始 状态 


了 归纳 


总 结 


IAH o 





MPEG-4 的 FAP 5j FACS 的 关系 是 相 


表 11-4 FAP 到 AU 的 映射 关系 


FAP 





Raise l i eyebrow(F31) + raise_r_i_eyebrow( F32) 





Raise l o. eyebrow(F35) «raise r o eyebrow(F36) 


过 分 析 表 情 与 AU 的 对 应 关系 ， 可 以 找 H 











表情 和 了 AP 之 间 的 对 应 关系 ， 见 表 11-5。 





表 11-5 表情 所 对 应 的 FAP 描述 
Ko mq FAP 描述 
FE F3, F4, F5, F6, F7, F12, F13, F19, F20 
高 兴 
F21, F22, F33, F34, F41 
悲伤 





F19, F20, F21 


, F42, F53, F54 
, F22, F31 





我 们 通过 描述 脸 部 区 域 相关 点 的 运动 来 度量 实际 图 像 中 的 FAP 


动画 合成 提供 了 很 好 的 桥梁 作用 ， 见 表 11-6 


表 11-6 FAP 的 变量 


, F32, F33, F34, F35, F36 





。 这 种 方法 为 表情 分 析 和 















































模型 
FAP 描述 to R 
Raise_l_i_eyebrow( F31 ) D5 =s(18, 24) 左 眉毛 的 右 端 与 左上 腿 的 右 眼 角 之 间 的 空间 距离 
Raise_1_0_eyebrow( F35) D7 =s(16,21) 左 眉毛 的 左 端 与 左 眼 的 左 眼 角 之 间 的 空间 距离 
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根据 参考 文献 [3 ] ， 我 们 可 以 获得 每 一 个 FAP 对 应 于 不 同情 感 状态 的 平均 值 和 标准 方差 
值 ， 见 表 11-7。 表 中 ,“ 一 ”表示 统计 数据 还 不 完整 。 
表 11-7 FAP 的 统计 数据 

















FAP 数据 生气 悲伤 高 兴 厌恶 恐惧 吃惊 
平均 值 -83 85 24 -80 104 224 
Raise. l. i. eyebrow ( F31 ) 
均 方 差 48 55 22 53 69 103 
平均 值 -66 — 25 -82 — 54 
Raise. l o. eyebrow(F35) 
均 方 差 35 = 22 54 = 31 























计算 FAP 每 个 变量 的 变化 范围 步 又 如 下 : 
定义 mi 和 5 分 别 代表 FAP 中 每 个 五 的 平均 值 和 标准 方差 ， 则 每 个 的 变化 范围 Xj; 可 
以 由 式 (11-6) 得 到 。 最 终 的 变化 值 见 表 11-8。 
X,,=[max(0,m,,-s,,),m,,+s,,] 
| x jo Aue (11-6) 


X;; 三 [ m; ; —s,;,min(0 „M; j ES) ] 
表 11-8 不 同 表情 所 对 应 的 FAP 变化 范围 


PAP 的 变化 范围 





wt 
ak 








F4 e [22,124] ,F31 e [ 131, -25 ],F32 e [ -136, -34], 
高 兴 F33 e [ -189, -109 ] ,F34 e [ - 183, - 105] ,F35 e [ -101, -31], 
F36 e [ - 108, -32 ] ,F37 e [29,85] 





F19 e [ -26, -41 ] ,F20 e [ -270 , -52],F2le[ -265, - 41], 
F22 e [ -270, - 52] ,F31 e [30,140] ,F32 e [26,134] 





11.1.5 实时 表情 信息 获取 与 表情 重 构 的 实现 


本 小 节 介绍 实时 表情 信息 获取 与 重 构 平 台 ， 此 平台 使 用 计算 机 对 视频 流 中 的 人 脸 实 现实 
时 的 表情 信息 获取 与 表情 重 构 。 这 里 提 到 的 表情 信息 获取 ， 包 括 人 脸 及 面部 器 官 检测 和 表情 
识别 (Facial Expression Recognition) ， 其 中 人 脸 及 面部 器 官 检 测 是 进行 表情 识别 的 基础 。 所 
谓 表情 重 构 (Facial Expression Reformation) 是 指 利用 计算 机 建立 人 脸 模型 , 通过 建立 
面部 动作 模型 ， 模拟 面部 骨髓 、 肌 肉 运 动 ， 再 现 面部 表情 ， 从 而 表达 虚拟 人 的 言 怒 良 
乐 。 

实时 重 构 平台 的 结构 如 下 : 

1) 人 脸 及 面部 器 官 检 测 。 人 脸 检 测 就 是 从 包含 人 脸 的 环境 中 将 人 脸 检 测 出 来 。 面 部 器 
官 检测 是 从 已 检测 出 的 人 脸 中 ,将 人 的 面部 器 官 提取 出 来 ， 这 是 表情 信息 获取 过 程 中 关键 的 
一 步 ， 因 为 接 下 来 的 表情 识别 要 以 面部 紫 官 的 运动 趋势 作为 研究 对 象 。 本 平台 采用 基于 肤色 
模型 和 复合 高 斯 模型 的 人 脸 及 面部 器 官 检测 方法 。 

2) 表情 识别 。 在 提取 出 面部 器 官 之 后 ， 根 据 面 部 咒 官 的 相 邻 帧 间 信 息 ， 对 面部 器 官 的 
运动 趋势 进行 分 析 ， 使 用 HMM 实现 实时 的 表情 识别 。 
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3) 表情 重 构 。 这 是 本 系统 的 重点 工作 。 以 Candide 模型 作为 通用 模型 ， 对 网 格 进行 纹 
理 贴图 后 ,依据 FACS ， 通 过 控制 AU 来 改变 人 脸 模 型 的 面部 表情 ， 完 成 对 人 脸 表 情 的 重 构 。 

下 面 将 详细 介绍 系统 所 实现 的 各 功能 的 模块 。 

1. 表情 识别 模块 

基于 肤色 的 人 脸 检 测 方法 对 环境 的 稳定 性 要 求 比 较 高 ， 但 实现 速度 较 快 。 通 过 实验 比较 
众多 的 肤色 模型 ， 本 平台 采用 了 YCbCr 颜色 空间 的 肤色 模型 ， 在 这 一 空间 中 ,肤色 呈现 出 
良好 的 聚 类 性 。 因 为 肤色 模型 对 光照 比较 敏感 ， 受 环境 影响 较 明 显 ， 所 以 肤色 模型 稳定 性 较 
差 ， 利 用 复合 高 斯 模型 对 这 一 问题 进行 修正 。 复 合 高 斯 模型 是 由 多 个 高 斯 函数 的 线性 组 合 来 
模拟 肤色 分 布 ， 参 数 的 增加 使 得 复合 高 斯 模型 有 更 多 的 灵活 性 ， 更 加 适合 用 来 描述 复杂 的 分 
布 情况 。 肤 色 的 概率 密度 函数 (PDF) 可 以 定义 为 

P(x, (i J)/W, s Cs sMsk ,Bs Ta) 



























































= > mGa, Gij) A) 


= (Qm) Ð aa | 3x | expl - à% (i ,j)/2] (11-7) 


AF, c 表示 模型 中 高 斯 分 量 的 数量 ; oy ME TRG ARB, Sem, =1; 高 斯 分 量 为 C(x， 
Ci, 76 都 有 均值 wx 和 协 方差 矩阵 3 。 该 复合 概率 密度 函数 的 参数 可 以 通过 期 望 最 大 化 
(Expectation Maximization, EM) 算法 获得 。 

在 实际 操作 时 ， 先 通过 大 量 样本 ， 训 练 出 高 斯 复合 模型 的 各 个 参数 ， 然 后 针对 每 一 个 像 
素 点 ， 将 其 值 代入 高 斯 模型 计算 其 属于 肤色 的 概率 ， 当 计算 得 到 的 概率 大 于 某 一 阔 值 时 ， 认 
为 其 是 肤色 点 ， 否 则 不 是 。 

接 下 来 进行 面部 器 官 检测 。 在 定位 面部 器 官 之 前 ， 需 要 使 用 直方 图 均衡 化 、 梯 度 照 度 修 
正和 均 方 差 标 准 化 三 步 来 实现 光线 的 平衡 化 ， 使 光线 在 人 脸 上 的 分 布 较为 均匀 。 

眼睛 的 定位 是 其 他 器 官 定位 的 基础 。 通 过 人 脸 检 测 得 到 的 人 脸 区 域 转化 为 灰 度 图 ， 并 用 
合适 的 阀 值 对 其 进行 二 值 化 后 ， 可 得 到 将 面部 器 官 与 肤色 分 开 的 二 值 化 图 。 然 后 ， 用 下 面 的 
规则 来 搜索 眼睛 : 

1) 左右 眼 块 的 大 小 R AR, 相差 不 大 ; 

2) 左右 单眼 宽 W, IW, 与 双眼 中 心 距离 DP 之 比 在 一 定 范 围 之 内 ; 

3) 左右 眼 的 重心 高 度 H, 和 Hy 相差 不 大 ; 

4) 左右 眼 宽 高 之 比 在 一 定 范围 内 。 

实验 表明 ， 通 过 上 述 四 条 规则 的 约束 ， 总 可 以 找到 一 对 满足 条 件 的 连通 区 域 ， 而 这 对 连 
通 区 域 恰好 就 是 由 两 只 眼睛 所 形成 的 区 域 。 在 找到 了 两 只 眼睛 后 ， 采 用 局 部 搜索 的 方法 定位 
两 个 眼角 点 ， 即 在 眼睛 所 对 应 的 局 部 区 域 中 ,搜索 最 左 和 最 右 的 两 个 点 作为 左右 眼角 点 ， 搜 
索 最 上 和 最 下 的 两 个 点 作为 上 眼皮 上 顶点 和 下 眼皮 下 顶点 。 对 于 虹膜 中 心 点 的 定位 ， 采 
用 了 传统 的 积分 投影 的 方法 。 在 准确 定位 眼睛 的 基础 上 ， 又 对 嘴巴 、 眉 毛 和 锚 孔 进行 了 定 


位 。 































































































在 检测 出 各 个 面部 器 官 后 ， 下 面 的 任务 就 是 分 析 面 部 表情 。 我 们 通过 分 析 面 部 器官 的 运 
动 信息 来 进行 表情 识别 。 
因为 人 类 具有 相同 的 面部 骨骼 及 肌肉 分 布 ， 即 使 是 不 同 的 人 ， 对 于 同一 种 表情 也 会 有 相 
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似 的 面部 器 官 运动 趋势 ， 所 以 通过 分 析 面 部 器 官 的 运动 信息 ， 可 以 达到 较 好 的 表情 识别 效 
果 。FACS 作为 一 个 通用 的 人 脸 动 画 编 码 规范 ， 是 表情 重 构 工作 的 重要 依据 ， 同 时 通过 分 析 
FACS 中 AU 与 人 脸 表情 的 关系 ， 可 以 发 现 ， 对 一 些 完 全 不 同 的 表情 ， 某 些 面 部 器 官 的 运动 
状态 仍 会 存在 一 些 相似 之 处 。 针 对 这 一 特点 ， 表 情 识别 应 该 采用 一 种 能 够 有 效 描述 状态 与 观 
察 态 之 间 关 系 的 方法 ，HMM 方法 就 是 这 样 一 种 方法 。 

我 们 对 每 一 种 面部 器 官 的 动作 建立 一 个 HMM。 先 观察 连续 几 帧 间 的 同一 器 官 的 运动 状 
态 ， 根 据 HMM 可 以 得 出 最 佳 的 表情 状态 序列 ， 然 后 统计 出 这 一 表情 序列 中 各 个 表情 状态 的 
百分比 ， 再 根据 各 个 器 官 的 统计 结果 进行 加 权 。 一 般 而 言 ， 嘴 部 的 运动 最 明显 ， 对 情感 的 表 
示 也 较为 准确 ， 所 以 赋予 的 权 值 较 大 ， 眼 睛 和 眉毛 的 权 值 相对 较 小 。 通 过 加 权 得 出 综合 的 表 
情 状 态 百 分 比 ， 取 比率 最 高 的 作为 识别 结果 。 下 面 介 绍 针对 一 种 器 官 确定 HMM 参数 的 过 
程 。HMM 可 以 通过 以 下 参数 来 描述 : 



















































































1) N 表示 模型 中 的 状态 个 数 。 令 状态 空间 为 5= |S,，5,，…，5,| ， 每 一 个 状态 对 应 
一 种 表情 状态 。 
2) M 表示 每 一 个 状态 可 观察 到 的 不 同 符号 数 。 各 个 符号 为 V= (V, Vas os Vb 


每 一 种 符号 对 应 该 器 官 的 一 种 运动 状态 。 

3) 状态 转移 概率 分 布 4= ia) (其 中 ,aj = Plaga = 5; 19,=S;] ,1<i,j<N) 描 述 了 各 种 
表情 之 间 的 转移 概率 ， 状 态 转 移 概率 分 布 由 经 验 值 预先 设 定 。 

4) 状态 j 中 可 见 符号 的 概率 分 布 = (b); CHP, b; (k) =PL 在 i 时 刻 出 现 符 号 











为 Vig=5]，1<j<N, Lek) 描述 了 在 一 种 表情 状态 中 ， 一 种 器 官 各 个 运动 状态 的 概 
率 分 布 。 





5) 初始 状态 分 布 7= (mi, Ha, =P [qa 75], Vj No 初始 状态 分 布 也 由 经 验 
值 预 先 确定 。 
我 们 利用 前 向 -后 向 算法 解 出 最 佳 状态 ,定义 : 























QD 前 向 变量 : 
a, (i) = P(0,0,--0,, q, =5, | A) (11-8) 
初始 条 件 :a (i) 2,5,(0,) , 1<i<N 
归纳 : 
N 
eG) = [Y o(D)a,]5(0,) ludere] ege (11-9) 
nz 
结果 : 
N 
P(O |a) = © a(i) (11-10) 
pz 
@) 后 向 变量 : 





B, (i) -P(0,,,0,,:-0, 


初始 条 件 :By(i) 21, 1<i<N 
归纳 : 


N 
BG) = Sob(OBad) t=T-1,T-2,-,1,1&i&N_ (11-12) 
j=l 


q, =S;, A) (11-11) 
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ORN: 





a DBO _ eG) 335 A (11-13) 


N 


So) A 
问题 的 解 即 表情 状态 q: 


y, G) = 


q, =arg max[ y, (i) | 1<t<T (11-14) 

在 得 到 状态 序列 q 后 ， 就 可 按照 上 面 提 到 的 方法 对 各 个 状态 序列 中 的 统计 结果 进行 加 
权 综 合 ， 得 出 表情 识别 结果 。 

2. 表情 重 构 模 块 

选择 Candide 模型 作为 通用 模型 ， 它 是 一 个 基于 图 形 数据 的 人 脸 模 型 。 通 过 定义 模型 的 
顶点 、 表 面 、AUV ， 并 选择 尽量 少 的 特征 点 ， 且 涵盖 尽量 多 的 面部 表情 信息 ， 借 助 OpenGL 
图 形 库 ， 得 到 Candide 模型 。 为 了 适应 一 个 特定 的 人 脸 ， 需 要 对 一 般 人 脸 模型 进行 变形 ， 这 
一 过 程 包括 对 特征 点 进行 的 变换 和 对 非特 征 点 进行 的 变换 。 对 人 脸 模型 变换 后 ， 对 纹理 贴图 
进行 一 些 细致 处 理 。 对 于 二 维 人 脸 照 片 ， 从 中 恢复 出 视点 参数 ， 依 据 已 构造 的 脸 部 模型 ， 计 
算出 脸 部 模型 上 每 个 顶点 在 纹理 图 像 中 的 颜色 信息 ， 以 增强 人 脸 的 真实 感 。 

此 模块 仍然 选用 图 11-2 所 示 的 包含 76 个 节点 的 Candide 模型 作为 通用 模型 ， 在 程序 中 ， 
4E X m iX [76], m iY [76], m iZ [76] 来 表示 节点 的 坐标 位 置 ， 并 在 初始 化 网 格 模型 
时 ， 依 据 表 11-1 中 各 点 的 坐标 ， 在 函数 InitFaceMesh ( ) 中 对 这 些 坐 标点 赋值 : 

m_iX [0] =0; 

m_iY [0] =250; 

m_iZ [0] =40; 

m iX [1] =40; 



















































































m_iY [1] =190; 
m_iZ [1] =90; 
m_iX [2] =0; 


m iY [2] =130; 








m_iY [3] =70; 
m_iZ [3] =130; 
绘制 模型 时 选择 绘制 三 角形 ， 这 样 的 三 角形 有 100 个 , H TRIANGLE g Triangle [ ] 来 
表示 构成 三 角形 的 顶点 号 : 
TRIANGLE g Triangle [ ] = 
| 
VIE DI DES A 
11,0, 1}, 
1,0, 34}, 


| 
| 
| 
(0, 44, 34}, 
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144, 45, 34}, 





milan, (12, 11,1} 表示 由 12 号 、11 号 和 1 号 三 个 顶点 绘制 的 一 个 三 角形 。 
在 进行 纹理 贴图 时 ， 把 二 维 图 像 依照 各 点 的 坐标 与 网 格 模 型 中 的 三 角形 顶点 匹配 ， 并 把 


纹理 图 一 块 一 块 地 贴 到 网 格 模型 上 。 

FACS 是 表情 识别 的 重要 依据 ， 也 是 
表情 重 构 的 基础 。 我 们 选择 了 FACS 中 
对 表情 变化 起 主导 作用 的 12 组 AU 作为 
合成 面部 表情 的 12 个 基本 单元 。 依 照 
MPEC-4 中 对 中 性 人 脸 的 定义 ， 可 以 认 
为 中 性 人 脸 的 表情 表现 为 平静 ， 把 此 时 
的 AU 值 作 为 各 个 AU 的 初始 状态 。 对 
比 “平静 ”状态 ， “高 兴 ” 时 ， 改 变 的 
AU 有 AUI, AU2, AUI2, "fryp" Hj, 
改变 的 AU 有 AUL1、AU12 、AU27 。 在 确 
定好 需要 控制 的 AU 后 ， 要 统计 代表 AU 
运动 的 运动 向 量 所 包含 的 节点 在 每 一 种 
表情 中 ， 相 对 于 初始 状态 (平静) 的 位 
置 变化 。 程 序 实现 时 ，12 组 AU 在 初始 
状态 时 ， 初 始 值 均 设 为 0，12 组 AU 与 
Candide 模型 的 76 个 节点 的 坐标 值 相关 
联 ， 当 表情 识别 模块 识别 出 表情 变化 时 ， 
表情 重 构 模块 将 按照 所 识别 的 表情 ， 改 
变相 应 的 AU 值 ， 随 着 AU 值 的 改变 ， 
Candide 模型 的 节点 坐标 也 发 生 改 变 ， 
OpenGL 中 使 用 一 系列 函数 对 图 形 进行 重 
新 绘制 。 由 于 绘制 模型 时 使 用 的 是 三 
形 的 顶点 数组 TRIANGLE g Triangle 
| ] ,虽然 随 着 AU 值 的 改变 ，Candide 
模型 的 节点 坐标 发 生 改变 ,但 顶点 号 并 
没有 变化 ， 所 以 只 是 改变 了 一 些 三 角形 
的 形状 ， 并 没有 改变 各 个 三 角形 的 总 体 
构成 ， 也 没有 改变 人 脸 网 格 模型 的 结核 
而 且 纹 理 贴 图 与 网 格 模型 之 间 的 关系 也 
没有 发 生变 化 。 

我 们 对 最 具有 代表 性 的 三 种 表情 



































a) 平静 b) 高 兴 c) 惊讶 






































图 11-7 实时 表情 信息 获取 与 重 构 平台 实验 结果 
a) 平静 b) 高 兴 c) 惊讶 














模型 如 图 11-6 所 示 。 
3. 实验 结果 


平静 、 高 兴 、 惊 讶 进行 重 构 。 三 个 表情 状态 的 网 格 
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图 11-7 ESOS AUR TIBI, TRUCOS. O4. 

实验 以 每 秒 15 帧 的 速率 ， 在 Pentium IV 2. GHz CPU 且 没 有 任何 特殊 硬件 的 PC E, Xf 
于 10 个 不 同人 的 不 同 表情 统计 识别 结果 表明 ， 识 别 的 正确 率 达 到 70% 左右 ， 对 所 识别 表 
情 ， 可 以 准确 地 进行 实时 表情 重 现 。 这 表明 所 提出 的 方法 是 有 效 可 行 的 。 未 来 工作 要 在 表情 
识别 的 准确 性 上 继续 进行 研究 。 

实时 表情 信息 获取 与 重 构 平 台 的 应 用 前 景 十 分 广泛 。 例 如 ， 网 络 视频 中 ， 应 用 此 平台 可 
以 只 传送 人 脸 表情 参数 ， 而 不 需 实时 传送 大 量 的 视频 信息 ， 这 样 就 节约 了 网 络 带 宽 ， 同 时 能 
够 得 到 较 准 确 的 人 脸面 部 信息 。 娱 教 (Edutainment) 技术 中 ,教师 可 以 通过 此 平台 来 判断 
学 生 当 前 的 情绪 变化 ， 与 学 生 进 行情 感 交 互 。 在 智能 交通 系统 中 ， 可 以 依 此 判别 要 驶 员 是 否 
处 于 疫 劳 轨 驶 状态 ， 并 及 时 警示 这 类 现象 ， 避 免 由 此 引发 的 交通 事故 。 人 情感 机 器 人 
是 人 工 智能 和 人 工 心理 理论 不 断 发展 的 产物 ， 将 实时 表情 信息 获取 与 重 构 平 台 模 块 移植 
到 单片机 或 机 器 人 喘 上 ,是 让 机 天 拥有 识别 、 理 解 和 表现 人 类 情感 的 能 力 的 重要 一 
步 。 


11.1.6 ”小结 


本 节 实 现 了 一 个 基于 视频 的 人 脸 表 情 合成 实例 。 本 实例 以 Candide 模型 作为 人 脸 模型 杠 
架 ， 通 过 进行 标准 人 脸 模 型 到 特定 人 脸 模型 的 变换 及 纹理 贴图 ， 完 成 了 一 个 具有 皮肤 纹理 的 
特定 人 脸 模型 。 通 过 控制 12 组 AU， 结 合 MPEG-4 中 的 FAP 定义 ， 对 特定 人 脸 模型 赋予 了 
面部 表情 的 变化 。 最 后 介绍 了 实时 表情 信息 获取 与 表情 重 构 平台 的 实现 ， 此 平台 把 人 脸 表 情 
建 模 模块 与 表情 识别 模块 结合 起 来 ， 实 现 基 于 视频 的 人 脸 表 情 合成 。 


11.2 三 维 虚 拟人 脸 模型 


人 脸 建 模 就 是 使 用 图 形 建 模 工 具 建 立 人 脸 的 三 维 模型 ， 或 者 直接 从 真实 环境 中 获取 人 脸 
的 三 维 模型 。 在 上 一 节 中 ， 人 脸 建 模 与 表情 建 模 依据 的 是 Candide 模型 ，Candide 模型 的 优 
点 是 利用 较 少 数目 的 顶点 达到 人 脸 建 模 及 模拟 人 脸 表 情 的 目的 。 但 是 ， 由 于 顶点 数目 的 局 限 
性 ，Candide 模型 距离 真实 人 脸 仍 然 存 在 很 大 的 差距 ， 而 且 Candide 模型 只 能 表现 人 脸 的 正 
面 特征 ， 没 有 提供 一 个 360° 视 角 。 本 节 将 结合 3DS MAX 模型 ， 根 据 特征 点 、 网 格 模型 的 思 
想 ， 建 立 一 个 更 具有 真实 感 的 三 维 虚拟 人 脸 模 型 。 


11.2.1 三 维 人 脸 模型 的 建立 


人 脸 三 维 数据 的 获取 是 形成 个 性 化 人 脸 模 型 的 基础 ， 常 用 的 有 激光 扫描 仪 、 结 构 光 、 被 
动 立 体 视觉 等 基于 计算 机 视觉 的 方法 。 激 光 扫 描 (Laser Scanner) 可 以 同时 获得 大 量 的 准确 
的 三 维 数据 和 纹理 信息 。 目 前 ， 世 界 上 许多 研究 小 组 正在 应 用 激光 扫描 仪 进行 人 脸 三 维 数据 
的 提取 人 研究。 使 用 三 维 激 光 扫 描 仪 扫描 真实 人 脸 采 集 数 据 时 ， 用 扫描 仪 围绕 人 头 部 旋转 
360° 进 行 扫描 ， 得 到 人 脸 的 三 维 几 何 信 息 和 纹理 信息 ， 然 后 构造 出 具有 纹理 的 三 维 人 脸 网 格 
模型 。 三 维 人 脸 网 格 模型 由 若干 三 维 网 格 点 (Vertex). 和 网 格 点 围 成 的 多 边 形 面 片 〈Facet) 
构成 ， 网 格 模型 的 规模 〈 模 型 中 网 格 点 和 面 片 的 数量 ) 决定 了 网 格 模型 的 真实 感 和 细 肛 程 
度 ， 同 时 网 格 模型 的 规模 也 会 影响 模拟 运动 的 计算 量 。 图 11-8 所 示 是 一 个 中 等 规模 的 三 维 
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人 脸 网 格 模型 。 该 模型 具有 1294 个 网 格 点 和 2403 个 面 片 。 
使 用 激光 扫描 等 基于 计算 机 视觉 的 方法 得 到 个 性 化 模型 ， 虽 然 形 态 逼 真 ， 但 是 有 如 下 缺 
点 : 





1) 获取 的 人 脸 三 维 数据 信息 只 有 人 脸 的 形状 而 没有 结构 信息 ， 
而 且 数 据 的 噪声 比较 大 ， 直 接 用 于 人 脸 动画 比较 困难 。 

2) 成 本 比较 高 ， 很 难 普及 。 

因此 ， 为 了 得 到 可 用 于 动画 的 个 性 化 的 人 脸 模 型 ， 一 般 是 从 一 个 
结构 化 的 人 脸 网 格 模型 开始 ， 通 过 基于 计算 机 视觉 的 方法 或 基于 图 像 
的 方法 得 到 个 性 化 人 脸 的 信息 ， 再 去 拟 合 、 变 形 标准 模型 ， 贴 上 纹 
理 ， 得 到 特定 人 脸 的 三 维 模型 。 许 多 研究 人 员 从 普通 的 摄像 机 获取 的 i 
多 个 图 像 出 发 ， 进 行 个 性 化 人 脸 建 模 的 探索 。 从 一 幅 图 像 重 构 真 实 的 ”图 11.8 eiae 
人 脸形 状 和 纹理 ， 本 身 是 一 个 病态 问题 ， 且 需要 大 量 的 计算 ， 速 度 很 规模 的 三 维 人 
慢 。 从 正面 和 侧面 图 像 提取 特征 点 信息 ， 对 标准 模型 进行 变形 ， 是 得 。 。 胎 网 格 模型 
到 个 性 化 人 脸 比 较 常 用 的 一 种 方法 。 从 任意 两 幅 图 像 重建 人 脸 ， 当 人 
的 皮肤 很 光滑 (如 儿童 、 年 轻 人 ) 时 ， 边 角 检 测 很 难 实现 ， 往 往 会 失败 。 从 多 幅 图 像 重 构 
三 维 人 脸 模型 的 方法 也 很 常见 ， 但 需要 的 计算 时 间 较 长 。 

出 于 上 述 原因 ， 我 们 采用 3DS MAX 建立 三 维 人 脸 模型 。 虽 然 3DS MAX 模型 没有 用 激光 
扫描 得 到 的 三 维 人 脸 模 型 精确 ， 但 是 数据 处 理 思想 与 方法 几乎 完全 相同 。 图 11-9 为 笔者 采 
用 的 3DS MAX 模型 ， 包 括 不 同 视角 的 网 格 模型 与 贴 上 纹理 的 模型 。 



















































































图 11-9 3DS MAX 人 脸 模型 
a) 人 脸 模型 b) 人 脸 模 型 的 侧面 效果 c) 人 脸 模型 的 背面 效果 
























































仍然 采用 Visual C + + 作为 编程 软件 平台 ,用 OpenGL 来 建 模 进行 绘制 。OpenGL 中 对 
点 、 线 和 多 边 形 的 定义 都 是 通过 对 顶点 坐标 的 定义 来 获得 的 ， 而 所 有 的 几何 物体 最 终 都 是 按 
顶点 的 定义 顺序 来 进行 绘制 的 。 此 模型 包含 212 个 顶点 ， 如 图 11-10 所 示 。 

这 里 用 二 维 数组 来 定义 顶点 为 vertices [212] [3], 其 类 型 为 GLfloat。 例 如 ， 
| —1.40009e -06f、- 0. 0804332f、0. 34856f} 表示 了 点 ( -1.40009e - 06, - 0. 0804332, 
0.34856) ， 这 一 点 是 鼻尖 的 位 置 。 绘 制 模型 时 选择 绘制 三 角形 ， 这 样 的 三 角形 有 410 个 ,用 
二 维 数组 定义 这 些 面 为 face_indicies [410] [6] (410 表示 有 410 个 三 角形 面 ，6 表示 组 成 
三 角形 的 三 个 顶点 号 和 对 应 的 纹理 坐标 号 ) ， 类 型 为 BYTE 。 模 型 构造 的 部 分 代码 如 下 : 

static GLfloat vertices [212][3] = | 
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| —0. 232686f, —0. 0423582f,0. 176818f} , & B og 

| —0. 217849f,0. 184267f,0. 218621] , W HEC if 

| —1.09337e -06f,0. 0412963f,0. 296763f} , d Ai ‘on 

igp eP n 

| bx 

static BYTE face. indicies[410][6] 2 | ts the is 
142,47 ,24 ,0,1,2}, 

{49 ,211 ,48 ,3,4,5} , 图 11-10 3DS MAX A 

18,6,7,6,7,8}, 脸 模 型 的 顶点 分 布 


10 ,38 ,59 ,9 ,10 ,111 ， 


11.2.2 特征 点 的 选取 


根据 投影 知识 ,如 果 知 道 一 个 点 的 两 面 (正面 侧面 ) 投 影 , 则 可 以 确定 该 点 的 空间 位 置 。 
根据 投影 原理 ,我 们 从 人 脸 的 正面 .侧面 照片 出 发 ,可 以 从 中 抽取 出 反映 人 脸形 状 的 特征 点 的 
信息 ,确定 出 人 脸 特 征 点 的 三 维 位 置 ,如 图 11-11 所 示 。 由 于 所 定义 的 脸 部 特征 点 都 具有 显著 
的 视觉 特征 ,例如 侧面 图 像 中 的 鼻尖 是 整个 脸型 中 最 右 端的 点 ,所 以 可 以 使 用 图 像 分 析 的 方法 
来 确定 特征 点 的 位 置 。 首 先 需 要 确定 一 个 基准 点 ,这 个 基准 点 应 该 和 标准 模型 的 基准 点 相同 ， 
这 里 选用 下 巴 作为 基准 ,其 他 点 相对 于 基准 点 的 空间 位 置 则 可 确定 。 对 于 一 些 特定 的 区 域 ,如 
嘴唇 .眼睛 等 ,通过 构造 二 维 的 形变 模型 ,并 将 特征 点 提取 与 模型 变换 相 结 合 , 可 以 提高 提取 精 
度 ,以 及 消除 图 像 噪声 可 能 带 来 的 误差 。 

在 特征 点 提取 之 前 ,通常 要 规范 化 图 像 ,使 得 两 图 中 的 人 脸 
等 高 。 图 像 的 规范 化 和 模型 的 整体 变换 将 为 后 续 的 几何 适 配 葛 
定 良 好 的 基础 。 同 时 ,根据 规范 化 后 的 图 像 可 估计 特定 人 脸 的 
宽度 ,高度 和 深度 ,其 中 宽度 /, ,高度 4 由 正面 人 脸 图 像 决 定 , 深 
REL 由 侧面 人 脸 图 像 决定 。/. = 面颊 间 的 宽度 ;/, = 头顶 和 下 书 
间 的 高 度 ;2 = 描 尖 和 后 脑 勺 间 的 深度 。 由 此 可 以 估算 人 脸 的 高 ”图 11-11 正面 和 侧面 图 像 
BE .宽度 深度 之 比 ,并 对 网 格 模型 进行 整体 变换 。 令 垂直 图 像 中 特征 点 的 对 应 关系 
HAX ZKA, WAREN ta, BREN ty, Tan Ta TAA RER 
型 的 高 宽 比 、 高 深 比 ,模型 所 在 坐标 系 原点 为 0(o.,o, ,0;) ,对 于 每 一 个 网 格 点 Vv, v, v.) Lid 
其 变换 后 的 新 位 置 为 VY(v',v',v') , 则 有 

vl= Vabal T x 
vi =v, (11-15) 
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v, =vt /T, 
人 脸 的 特征 点 全 多 , 则 描述 人 脸 的 形状 全 精确 ,但 是 特征 点 增多 会 造成 编码 时 间 延长 。 
此 ,在 特征 点 多 少 和 编码 时 间 之 间 存 在 着 一 种 平衡 关系 ,需要 进行 折 中 ,看 对 哪 方面 的 要 求 更 
多 一 点 。 
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11.2.3 纹理 映射 


1. 纹理 拼接 图 的 产生 

在 计算 机 图 像 合成 、 计 算 机 视觉 以 及 三 维 人 脸 模型 中 ， 需 要 将 多 视角 图 像 拼 接 融 合 后 的 
静态 纹理 图 像 映射 到 三 维 模型 上 ， 生 成 棚 棚 如 生 的 三 维 实体 。 由 于 设备 的 机 械 限制 ， 广 角 的 
场景 需要 不 同 角度 的 成 像 进行 平滑 无 缝 的 拼接 融合 ， 从 显微镜 、 望 远 镜 、 手 提 摄 像 机 到 卫星 
成 像 系统 也 都 需要 图 像 融 合 技术 来 构造 一 幅 图 片 所 不 能 表现 的 全 景 图 。 对 于 这 些 图 像 的 拼接 
融合 ， 目 前 普遍 的 研究 方法 是 通过 两 幅 图 像 间 的 匹配 特征 点 估计 图 像 间 的 点 变换 关系 ， 然 后 
分 别 通 过 对 两 幅 图 像 重 采样 注册 到 一 幅 更 大 的 空白 图 像 中 形成 合成 图 像 ， 并 在 注册 的 过 程 中 
对 两 幅 图 像 的 交接 边界 处 进行 颜色 平滑 过 渡 ， 最 后 形成 一 张 采样 融合 的 包含 两 幅 图 像 信息 的 
图 像 。 

整个 算法 主要 包含 三 步 : 特征 点 的 提取 和 匹配 ; 图像 间 点 变换 的 估计 ; 交接 边界 处 的 颜 
色 无 颖 过 渡 。 对 每 步 算法 的 研究 虽然 取得 了 一 些 成 果 ， 但 还 没有 形成 一 种 稳健 的 完全 自动 的 
拼接 融合 技术 。Richard Szeliski 以 手动 确定 不 少 于 4 对 特征 点 5 ， 并 以 特征 点 像素 的 亮度 误 
差 构 造 优化 函数 来 估计 图 像 间 的 点 变换 关系 ， 取 得 了 比较 好 的 平面 和 深度 场景 融合 效果 ,但 
此 算法 以 亮度 误差 来 做 点 变换 估计 ， 这 对 图 像 的 光照 变化 非常 敏感 ， 而 且 整 个 算法 的 自动 化 
程度 不 够 。Pollefey 详细 研究 了 特征 点 自动 提取 和 匹配 问题 ” ， 但 没有 针对 图 像 处 理 做 更 深 
入 的 研究 。Peter J 分 别 运 用 多 分 辩 率 样 条 技术 和 单调 函数 择 值 技术 对 图 像 的 交接 处 进行 了 有 
效 的 颜色 平滑 过 渡 串 ; ， 不 过 这 是 在 特征 点 匹配 和 点 变换 的 准确 估计 基础 上 完成 的 。 

纹理 映射 能 赋予 三 维 人 脸 模 型 以 真实 感 。 由 于 采用 的 人 脸 模 型 是 360° 整 体 头 部 模型 ， 
所 以 需要 可 以 构成 环视 效果 的 头 部 纹理 图 片 与 之 对 应 。 这 就 要 先 对 正面 图 像 和 侧面 图 像 进行 
无 颖 拼接 ， 生 成 视点 无 关 纹 理 图 。 输 入 的 是 三 幅 图 像 ， 需 经 过 组 合 才能 得 到 高 分 辨 率 的 纹理 
拼接 图 。 由 于 正 向 视图 能 提供 高 精度 的 脸 部 特征 ， 所 以 要 求 正 向 视图 保持 不 变 ， 对 侧 向 视 
图 ， 首 先 沿 预 定义 的 脸 部 变形 特征 线 进 


行 变形 ， 由 于 眼睛 是 人 脸 视图 的 关键 ， ~ 
我 们 沿 眼 角 裁 剪 图 像 ， 并 加 以 拼接 , d: AI a 
a) 
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眼角 点 垂 线 裁剪 图 像 ， 并 与 正视 图 的 对 
应 左右 眼角 点 垂 线 相互 拼接 。 在 侧面 图 
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像 中 定义 了 对 应 的 脸 部 变形 特征 线 。 图 b) 
11-12 中 ,图 a 是 正 向 视图 中 眼角 及 治 眼 图 11-12 不 同方 向 视图 的 特征 线 对 应 关系 
FASTER ANE, El b、c 给 出 了 裁剪 线 a) 正 向 视图 b) 左 侧 视图 c) 右 侧 视图 

















在 侧 向 视图 中 的 对 应 位 置 。 

对 侧面 图 像 进 行 变形 的 准则 是 ， 将 侧 向 视图 中 定义 的 变形 特征 线 变 换 到 正视 图 中 对 应 变 
形 特征 线 的 位 置 ， 即 沿 左 右 图 像 的 每 一 条 扫描 线 作 横 向 压缩 或 拉 伸 ， 使 其 变形 后 的 脸 部 变形 
特征 线 与 正 向 视图 中 的 脸 部 变形 特征 线 相 重 合 。 因 此 需 对 脸 部 变形 特征 线 的 两 侧 的 图 像 像素 
进行 重 采样 变换 。 左 右 视图 的 变形 准则 是 将 侧 向 视图 中 定义 的 变形 特征 线 变换 到 正视 图 中 对 
应 变形 特征 线 的 位 置 ， 即 沿 左 右 图 像 的 每 一 条 扫描 线 作 横向 压缩 或 拉 伸 。 图 11-13 是 侧 向 视 
图 的 变换 示意 及 初步 得 到 的 纹理 拼接 图 。 

正 侧 视图 都 只 在 一 定 视角 范围 内 给 出 较 好 的 人 脸 纹 理 。 由 于 正面 和 侧面 图 像 的 光照 条 件 
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E 11-13. 侧 向 视图 的 变换 及 初步 纹理 拼接 图 的 产生 
a) 左 侧 视图 变换 b) 右 侧 视图 变换 c) 纹理 拼接 医 









































和 拍摄 角度 不 同 ， 简 单 的 拼接 会 使 皮肤 颜色 在 拼接 边界 的 变化 很 大 ， 出 现 裂 颖 ， 如 图 11-13e 
所 示 。 为 了 消除 裂缝 ， 一 般 采 用 多 分 辩 率 样 条 技术 ,实现 图 像 之 间 的 光滑 拼接 ， 该 方法 又 叫 
图 像 金字 塔 法 。 图 像 金字 塔 可 以 看 作 代表 原始 图 像 的 不 同 分 辨 率 的 一 组 图 像 的 集合 ， 高 层 的 
图 像 来 自 底层 图 像 ， 底 层 的 图 像 就 是 原始 图 像 。 高 斯 金字 塔 的 第 n 层 通 过 低 通 滤波 和 缩小 ， 
从 第 n -1 层 中 产生 ， 拉 普 拉 斯 金字 塔 的 第 n 层 是 把 高 斯 金字 塔 的 第 n+1 层 扩 大 ， 再 和 高 斯 
金字 塔 的 第 n 层 求 差 得 到 。 递 归 建 立 高 斯 和 拉 氏 金字 塔 后 ， 在 返回 过 程 中 ， 求 和 重建 图 像 得 
到 了 无 颖 拼接 的 图 像 。 这 里 对 分 段 特征 线 执行 分 段 线性 变 
换 。 而 使 用 更 高 阶 的 特征 曲线 能 对 侧 向 视图 执行 更 光滑 的 变 
形 。 最 后 遵循 上 面 的 图 像 变形 规则 ， 进 而 用 多 分 辩 率 样 条 技 
术 进 行 光 滑 ， 形 成 一 张 较 大 的 无 颖 的 纹理 拼接 图 ， 正 确 给 出 
特定 人 脸 网 格 顶点 的 纹理 坐标 ， 如 图 11-14 所 示 。 
2. 纹理 坐标 
























































、 图 11-14 经 光滑 处 理 的 
计算 纹理 坐标 时 ， 将 每 一 个 网 格 顶点 (x. y, z) EE 最 终 纹理 拼接 图 


面 、 右 侧 、 左 侧 图 像 上 投影 ， 记 投影 点 位 置 分 别 为 (%， 
yp). Go y. Gy, yos EWEA PEAIRA AAI x AERARII fi. fo, DUE PRSE EAT 
界 和 右 眼 角 的 x 坐标 分 别 为 r,、r,， 左 侧面 图 中 的 左 眼 角 和 后 脑 勺 边界 的 x 坐标 分 别 为 L 
4,， 并 且 记 正面 、 右 侧 图 像 在 纹理 拼接 图 中 裁剪 的 宽度 分 别 为 w,、w,。 我 们 容易 计算 网 格 项 
点 在 未 实施 图 像 变 形 前 在 纹理 拼接 图 中 的 纹理 坐标 ， 具 体 是 


























Xeno = (Xp — fi + w) 知 投影 点 位 于 正视 裁剪 图 上 
hms (s or) ULE TRE uis 
Xrexcoond = (zh +w, +w) 和 否则 投影 点 位 于 左 视 裁 前 网 上 
Yiexcoord = Yf 
然后 遵循 图 像 的 变形 特征 线 的 变形 ， 计 算出 网 格 顶 点 在 变形 纹理 图 像 上 的 纹理 坐标 。 程 





序 中 使 用 二 维 数组 来 定义 纹理 坐标 textures [225] [2] ， 其 类 型 为 GLfloat。 由 于 绘制 网 格 模 
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型 时 选择 了 三 角形 ， 在 进行 纹理 贴图 时 ， 使 用 glTexCoord2£. ( ) PRÆGES E rP BS] AA ps PRS 
到 对 应 的 三 角形 顶点 的 坐标 。 实 验 结果 表明 ， 纹 理 映 射 的 结果 比较 理想 。 


11.2.4 特定 虚拟 人 脸 模型 的 实现 


本 节 用 Visual C ++ 结 合 OpenGL 和 3DS MAX 完成 了 一 个 具有 真实 感 的 三 维 虚 拟人 脸 模 
型 。 该 模型 可 以 实现 如 下 功能 : 360° 环 形 可 视 ， 绕 不 同 坐 标 轴 旋 转 ， 网 格 / 纹 理 转换 ， 更 换 
纹理 ， 表 情 变化 ， 模 型 外 观 变 化 等 。 图 11-15 是 程序 运行 的 界面 。 图 11-16 是 三 维 虚拟 人 脸 
模型 的 网 格 图 ， 与 图 11-8 中 的 3DS MAX 人 脸 网 格 模型 对 比 ， 我 们 可 以 看 到 ， 在 3DS MAX 
中 ， 网 格 模型 以 三 角形 、 四 边 形 等 不 同 多 边 形 构成 ， 而 在 使 用 Visual C + + 编程 绘制 的 模型 
中 ， 则 全 部 由 三 角形 构成 。OpenGL 中 ， 对 点 、 线 和 多 边 形 的 定义 都 是 通过 对 顶点 坐标 的 定 
义 来 获得 的 ， 而 所 有 的 几何 物体 最 终 都 是 按 顶 点 的 定义 顺序 来 进行 绘制 的 。 绘 制 模型 时 ， 选 
择 绘 制 三 角形 是 因为 三 角形 是 最 简单 的 而 且 很 有 规则 的 图 形 ， 也 是 构成 平面 时 最 基础 的 多 边 
JE, 易于 通过 控制 项 点 来 控制 三 角形 的 形变 ， 并 且 同 时 带动 相 邻 三 角形 的 形状 变化 ， 从 而 改 
变 人 脸 模型 的 结构 。 此 外 ， 为 了 观察 方便 ,使 用 Visual C ++ 绘制 的 虚拟 人 脸 模 型 采用 只 绘 















































制 单 面 的 方法 ， 避 免 了 3DS MAX 网 格 模 型 同时 显示 前 面 和 后 面 的 视觉 误差 。 





图 11-15 三 维 虚拟 人 脸 模型 运行 界面 





图 11-17 是 程序 运行 中 有 关 三 维 虚拟 人 表情 变化 的 部 分 画面 。 其 中 ， 图 a 是 虚拟 人 的 
平静 状态 ， 图 b 是 高 兴 时 的 微笑 模样 ， 图 c 是 严 伤 时 振 起 嘴 的 样子 。 由 于 我 们 在 表情 合成 
时 采用 了 特征 点 变换 的 方法 ， 所 以 可 以 根据 改变 特征 点 的 位 置 来 “制作 ”出 一 些 不 常 出 
现在 人 脸面 部 的 特殊 表情 。 例 如 ， 图 d 是 左 半边 脸 悲 伤 报 嘴 、 右 半边 脸 高 兴 微 笑 的 复合 
表情 。 
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b) o) d) 

















Z| 11-16 网 格 /纹理 图 11-17 表情 变化 
转换 中 的 网 格 模型 a) 平静 b) 高 兴 c) 悲伤 d) 复合 表情 

















与 表情 变化 方法 类 似 ， 可 以 通过 特征 点 变换 对 人 脸 模 型 进行 形变 ， 我 们 通过 改变 鼻子 的 
坐标 点 位 置 ， nor ua 模拟 了 “ 匹 诺 曹 ”的 形象 ， 如 图 11-18 所 示 ， 
其 中 ,图 a 是 原始 人 脸 模型 ， 图 b 是 鼻子 拉 伸 的 效果 ， 图 c 是 夸张 的 鼻子 拉 伸 效 果 。 


nnn 


图 11-18 ”模型 外 观 变化 
a) 原始 人 脸 模型 b) 鼻子 拉 伸 c) 夸张 的 鼻子 拉 伸 效 果 





























11.2.5 小 结 





本 小 节 结合 3DS MAX 模型 ， 依 据 特征 点 与 网 格 模型 的 思想 ， 建 立 了 一 个 更 具 真实 感 的 
三 维 虚 拟人 脸 模 型 ， 并 且 完 成 了 复杂 三 维 虚 拟人 脸 模 型 的 脸 部 特征 调整 及 表情 变化 。 该 模型 
可 以 实现 360° 环 形 可 视 、 绕 不 同 坐 标 轴 旋 转 、 网 格 /纹理 转换 、 更 换 纹理 、 表 情 变 化 、 模 型 
外 观 变化 等 功能 。 


11.3 ”虚拟 人 脸 的 年 龄 仿真 


人 的 年 龄 是 一 个 随时 间 变 化 的 长 期 的 过 程 ， 在 人 的 外 部 表现 比较 明显 ， 如 人 脸 轮 廓 的 变 
化 、 人 脸皮 肤 的 变化 等 。 老 化 是 一 个 不 可 避免 的 过 程 ， 随 着 年 龄 的 增长 ， 人 脸 外 貌 会 产生 很 
大 的 变化 。 而 虚拟 人 模拟 真实 人 年 龄 老化 的 研究 具有 广泛 的 应 用 价值 ， 例 如 协助 公安 部 门 抓 
捕 通 缉 犯 。 通 常 ， 当 刑事 案件 发 生 后 ， 可 以 根据 嫌疑 犯 的 特征 和 目击 证 人 的 描述 迅速 锁定 大 
干 个 最 可 疑 的 人 ， 对 于 在 逃 的 要 发 通缉 令 进 行 通 缉 。 但 是 一 般 情 况 下 ， 可 获得 的 通缉 犯 照片 
都 是 几 年 或 很 多 年 之 前 拍摄 的 ， 茫茫 人 海 之 中 寻找 这 样 的 人 犹如 大 海 捞 针 。 可 以 考虑 利用 通 
缉 犯 照片 生成 虚拟 人 ， 再 进行 年 龄 仿真 得 到 与 疑犯 最 为 接近 的 图 片 。 
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11.3.1 年 龄 老化 特征 的 相关 研究 


Pessa 45 ^ 通过 研究 人 类 头骨 的 变化 ， 发 现 上 颌 骨 的 最 大 高 度 与 眼窝 高 度 的 比值 在 青年 
时 期 (15-24 岁 ) 最 大 ， 而 在 婴儿 时 期 (1 ~ 12 个 月 ) 和 老年 时 期 (53 ~ 76 岁 ) 时 较 小 ， 
并 且 上 颌 骨 的 垂直 高 度 从 青年 时 期 到 老年 时 期 有 明显 的 减少 。 该 项 发 现 认为 人 脸 的 老化 过 程 
呈现 一 种 非 线形 或 者 多 样 化 的 趋势 。 尽 管 由 于 精确 测量 数据 的 获得 很 困难 ,在 实际 应 用 中 
不 易 实 现 ， 但 是 这 个 物理 模型 从 宏观 角度 促进 对 人 脸 老 化 过 程 的 理解 。 人 研究 主要 侧重 于 
外 形 的 变化 ， 没 有 涉及 纹理 ( 比如 皱纹 、 斑 点 等 ) 的 变化 ， 因 而 据 此 重建 出 来 的 图 像 真 
实 性 不 强 。 

L Pitanguy 等 人 ”基于 人 体 测量 学 理论 ， 通 过 测量 人 脸 器 官 与 骨骼 的 大 小 ， 量 化 年 龄 变 
化 对 人 脸 的 影响 。 为 了 避免 外 在 条 件 的 干扰 ， 实 验 对 象 仅 限于 中 产 阶级 的 白人 妇女 ， 共 50 
A, 年龄 范围 为 25 ~ 65 岁 ， 每 个 人 选取 两 个 不 同 历史 时 期 的 照片 〈 拍 摄 时 间 差 异 不 少 于 8 
年 ) 。 

RER O 从 人 脸 画 像 角 度 ， 总 结 了 人 脸 不 同年 龄 的 图 像 细 节 规 律 。 少 年 时 期 ， 人 脸 
脸型 特征 主要 为 小 脸 、 短 贺 、 小 下 巴 、 皮 肤 光滑 有 弹性 ; 青年 时 期 ， 人 脸 脸 型 特征 表现 
为 竖 向 拉 长 、 下 巴 稍 尖 、 柔 和 感 消失 、 边 沿 变 硬 、 皮 肤 较 光滑 、 伴 随 青春 盖 等 皮肤 纹理 
变化 ; 中 年 时 期 ， 人 脸 脸 型 特征 为 边沿 棱角 更 清晰 、 额 骨 突 出 两 和 有 下 四 、 肌 肉 出 现 松 
垂 、 下 领 稍 前 凸 、 皮 肤 光 泽 度 降低 、 颜 色 变 深 、 有 皱纹 出 现 ; 老年 时 期 ， 人 脸 脸 型 特征 
表现 为 两 蔽 下 四 明显 、 面 部 肌肉 松 垂 加 重 、 胖 人 双 下 巴 及 下 领 前 凸 明 显 、 皮 肤 光 译 度 更 
低 、 皱 纹 多 、 伴 随 老年 斑 等 皮肤 纹理 变化 。 图 11-19 为 参考 文献 114] 总结 出 的 人 脸 不 同 
年 龄 面部 特征 的 变化 规律 。 

Hussein ”提出 了 一 种 新 的 人 脸 模拟 方法 。 该 方法 结合 基于 人 体 测 量 学 的 变形 技术 和 
BRDF (双向 反射 分 布 函 数 ) 图 像 技 术 ， 从 人 脸 外 形 与 纹理 两 个 方面 模拟 人 脸 图 像 。 图 11- 
20 为 参考 文献 [15] 中 列 出 的 外 形变 化 与 纹理 变化 的 结果 。 
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图 11-19 ”人 脸 衰 老 过 程 中 的 特征 图 11-20 Hussein 人 脸 纹理 县 加 示意 图 
变化 描述 和 画像 效果 
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11.3.2 Dirichlet 自由 变形 算法 


l. 自由 变形 算法 的 基本 原理 
1986 年 ， 杨 伯 翰 大 学 (Brigham Young University) 的 Sederberg 和 Parry 提出 了 一 种 绒 新 
的 自由 变形 (Free From Deformation, FFD) 算法 。 
变形 在 数学 上 可 以 看 作 一 个 由 R 到 R 的 映射 X i 
=(x) ， 其 定义 域 是 待 变形 物体 表面 所 包围 的 实体 ， 
其 值 域 是 变形 后 的 实体 。 所 以 ， 关 键 问题 是 如 何 构造 
此 映射 ， 使 模型 的 构造 具有 较 好 的 直观 性 、 交 互 性 和 
透明 性 。 
Sederberg 和 Parry 使 用 了 三 变量 张 量 积 Bernstein 
多 项 式 和 一 个 控制 框架 来 构造 映射 r(x)， 其 算法 如 
下 : 
1) 在 一 个 包围 待 变形 物体 的 长 方 体 中 ， 构 造 局 
部 坐标 系 0' -STU， 如 图 11-21 所 示 。 URS cele 
图 中 , X, (0') 是 局 部 坐标 系 的 原点 ; S、7、 tms 
忆 是 轴 向 量 。 笛 卡 儿 坐标 0 -XYZ 中 任意 一 点 X 在 局 部 坐标 系 中 具有 坐标 (s, t, u)o 
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X 2 X, ^58 e iT + ut (11-17) 
AF, X 为 局 部 坐标 系 的 原点 。 
LTXxU-(X-X) | _SxU+(X-%) p SRT SUED aes 
AREE 7E UT §xU-T TE c STU - 


显然 ， 对 控制 框架 内 的 任意 点 ， 其 局 部 坐标 满足 : Om (s, t, u) «Il. 
2) 在 长 方 体 上 构造 控制 顶点 网 格 P;;;， 分别 沿 S$S、T 和 U0 三 个 方向 用 平行 于 0'TU、 
O'SU Fil O'ST 坐标 面 的 等 距 截 面 , 将 O'S, O'T 和 0'D 等 分 为 I、m 和 nn 个 区 间 ， 则 已) 可 
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PEUT 
Buy cus p> * yi + m 
i20,101,,5j = 0,1, ,mjsk = 0,1,--,n (11-19) 
框架 内 任意 一 点 的 笛 卡 儿 坐 标 可 表示 为 
X(,t,u) = Y Y Y PusByG)Bs (t) By Cu) (1120) 
RP, By (s), By (t) ALB, (u) ZHBDU 1, m An Yk Bemstein 多 项 式 。 
在 建立 了 物体 与 框架 的 相互 关系 之 后 ， 用 户 可 通过 改变 P,,, 的 位 置 得 到 新 的 控制 顶点 





P ;和 变形 后 的 控制 框架 。 若 原 控制 框架 的 任 一 点 XX 所 对 应 的 局 部 坐标 为 《s，t，w)， 则 
该 点 在 框架 变形 后 所 对 应 的 笛 卡 儿 坐标 Xi 变形 规则 确定 为 
Xu = » p Y pi BIG) By (t) By, Qu) (11-21) 


XX (1121) 表明 ， 由 新 的 控制 顶点 计算 变形 后 的 物体 时 ， 应 首先 确定 原 控 点 框架 内 任 
意 一 点 所 对 应 的 局 部 坐标 (s，i，w)。 一 般 地 说 ， 此 过 程 应 根据 原 控 制 硕 点 和 式 (11-20) 
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来 解 非 线 性 方程 组 。 在 用 Bernstein Zi Xo Ze AN ZEJE RT EN, PE ah a A (11 - 
19) ， 则 其 局 部 坐标 可 用 式 (11-18) 确定 。 

控制 顶点 已 ,实际 上 就 是 Bernstein 多 项 式 的 系数 ， 与 Bezier 曲线 、 曲 面 一 样 ， 变 形 与 
控制 顶点 存在 非常 密切 的 关系 。 由 于 Bernstein 多 项 式 的 性 质 ， 移 动 一 个 控制 顶点 将 影响 框 
架 内 的 整个 空间 。 因 此 ， 变 形 区 域 为 框架 内 所 有 的 点 。 实 际 上 ， 变 形 只 施加 于 框架 内 待 变形 
物体 上 的 点 ， 即 需要 计算 的 仅 是 框架 内 变形 物体 上 的 点 。 当 整个 物体 都 位 于 框架 内 时 ， 移 
动 一 个 控制 项 点 将 影响 整个 物体 的 形状 。 为 使 变形 局 部 化 ， 可 采用 较 小 的 框架 。 当 物体 
的 一 部 分 位 于 某 个 较 小 框架 内 时 ， 将 获得 局 部 变形 。 此 时 框架 与 物体 相交 ， 为 保持 物体 
表面 的 连续 性 ， 框 架 与 物体 相交 面 上 的 框架 顶点 应 保持 不 变 ， 为 保持 切 向 向 量 或 曲率 连 
续 ， 需 对 框架 控制 顶点 的 位 置 提 出 更 严格 的 要 求 。 因 为 物体 的 变形 是 由 框架 控制 顶点 的 
移动 产生 的 ， 要 求 精确 移动 物体 上 的 一 个 给 定 的 点 将 是 非常 困难 的 ， 需 要 反复 试验 才能 
获得 所 期 望 的 效果 。 

2. Dirichlet 自由 变形 算法 

FFD 算法 的 优点 是 : 可 与 任何 实体 造型 系统 一 起 使 用 ; 可 对 任何 形式 、 任 何 窜 次 的 曲面 
进行 变形 ， 可 整体 也 可 局 部 使 用 ; 可 应 用 曲面 或 多 边 形 模 型 ， 可 估计 体积 变化 的 程度 ， 并 存 
在 一 类 保持 体积 不 变 的 变换 ; 参数 曲线 、 曲 面 经 FFD 变换 后 仍 是 曲线 、 曲 面 ; 可 应 用 于 大 
多 数 功能 性 曲面 。 

尽管 FFD 算法 有 许多 优点 ， 但 是 FFD 算法 仅 用 长 方 体 作 为 框架 ， 严 重地 束缚 了 FFD 算 
法 的 应 用 范围 。 因 此 ， 研 究 人 员 相 继 提 出 了 许多 扩展 自由 变形 算法 ， 从 不 同 的 角度 来 继承 
FFD 算法 的 优点 ， 克 服 其 缺点 ， 扩 展 FFD 算法 的 应 用 范围 。 

Coquillart 提出 的 扩展 FFD 算法 "可 以 使 用 非 长 方 体 控 制 框架 ， 从 而 扩展 了 可 能 产生 的 
变形 。Kalar 等 提出 的 有 理 FFD 算法 "给 每 个 控制 顶点 都 附加 了 权 值 ， 用 户 可 以 通过 移动 控 
制 顶点 或 者 修改 权 值 来 控制 变形 ， 与 FFD 相 比 ， 权 因子 提供 了 另 一 个 控制 变形 的 自由 度 。 
FED 通过 移动 控制 顶点 使 控制 框架 产生 变形 ， 从 而 使 物体 产生 变形 ， 是 一 种 间接 变形 的 方 
法 ， 难 以 准确 控制 物体 的 形状 。Hsu 等 提出 的 直接 FFD 算法 "”， 可 以 让 用 户 直接 操作 物 
体 上 的 点 ， 而 不 是 控制 顶点 ， 由 物体 上 点 的 位 置 变 化 ， 再 计算 物体 上 其 他 点 的 变化 。 控 
制 顶点 是 非 均匀 分 布 的 ， 因 此 可 以 在 变化 较 复 杂 的 区 域 应 用 较 多 的 控制 顶点 。 以 上 各 种 
改进 的 FFD 算法 都 对 FFD 算法 的 功能 进行 了 某 种 扩展 ， 但 是 并 没有 在 本 质 上 有 所 突破 。 
FED 用 了 长 方 体 局 部 坐标 系 ， 因 此 控制 框架 也 必须 是 长 方 体 的 ， 这 显然 与 要 变形 物体 的 
多 样 性 相 违背 。 

Dirichlet ( 狄 里 克 斯 ) 自由 变形 算法 ( DFFD) 7" J& Moccozet 在 1997 年 提出 的 ， 是 FFD 
算法 的 各 种 改进 算法 中 非常 成 功 的 一 种 ， 也 是 目前 应 用 最 广泛 的 一 种 算法 。 该 算法 抛弃 了 对 
控制 框 染 拓扑 结构 的 限制 ， 采用 更 为 一 般 的 Sibson 局 部 坐标 系 ， 从 根本 上 克服 了 FFD 算法 
的 局 限 性 ， 使 用 更 灵活 通用 。Dirichlet 自由 变形 算法 首次 结合 计算 几何 知识 (Delaunay 三 角 
划分 和 Voronoi 图 ) 来 实现 。 本 小 节 将 结合 这 两 个 计算 几何 知识 来 详细 介绍 Dirichlet 自由 变 
形 算法 的 思想 及 实现 。 

(1) Voronoi 图 的 基本 概念 ” 设 p, p, 是 平面 上 两 点 , LEAR Epp, REDE, 工 将 
平面 分 成 L, 和 Lx ARI, MF L 内 的 点 pi 具有 特性 : d (pj, p) «d (pj, p), HP 
d (p,, p) RNP, Sp, (i=1, 2) 之 间 的 欧 儿 里 得 距离 。 这 意味 着 ， 位 于 工 内 的 点 比 平面 
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上 其 他 点 更 接近 p,， 换 句 话 说 ,Li AAU EO p EA Be p, 的 点 的 轨迹 ， 记 为 
V (p,), ， 如 图 11-22 Pros. WER H(p, p) RANK L, 而 L.-H(p,. p), WA 
Vip,) *H(pi, 55), Vip.) 2H(p,, pi) 























Al 11-223. n=6 的 一 种 V(pi) 
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到 11-22 V(p,), Vip.) 的 图 








给 定 平面 上 的 nn 个 点 的 点 集 S, S= ipi, Por cn. Prato 定义 V(p;) = 站 (pi, pj), 
(ij), BU V(p;) 表示 比 其 他 点 更 接近 p; 的 点 的 轨迹 是 n -1 个 半 平 面 的 交 ， 它 是 一 个 不 多 
于 -1 条 边 的 凸 多 边 形 域 ， 称 为 关联 于 疡 的 Voronoi 多 边 形 或 关联 于 p; 的 Voronoi 域 。 图 
1123 中 表示 关联 于 p, 的 Voronoi 多 边 形 ， 它 是 一 个 四 边 形 ， 而 n=6。 

对 于 5 中 的 每 个 点 都 可 以 做 一 个 Voronoi ZÉ, XFER n i 
Voronoi 多 边 形 组 成 的 图 称 为 Voronoi 图 ， 记 为 Vor(S)， 如 图 11-24 
所 示 。 该 图 中 的 顶点 和 边 分 别 成 为 Voronoi 顶点 和 Voronoi 边 。 显 然 ， 
1 SI = Hf, Vor (S) 划分 平面 成 n 个 多 边 形 域 ,每 个 多 边 形 域 — 0. 
V(p;) 包 含 5 中 的 一 个 点 ， 而 且 只 包含 $ 中 的 一 个 点 。Vor(S) Ry) ^ 
是 S 中 某 点 的 垂直 平分 线 上 的 一 条 线段 或 者 半 条 直线 ， 从 而 为 该 点 
所 在 的 两 个 多 边 形 域 所 共有 。Vor(S) 中 有 的 多 边 形 域 是 无 界 的 。 

下 面 介 绍 几 个 重要 Voronoi 图 的 定理 : 

[定理 11-1] ”每 个 Voronoi 点 恰好 是 三 条 Voronoi 边 的 交点 ， 如 图 11-24 所 示 。 

[11-2] 设 v 是 Vor(S) 的 顶点 ， 则 圆 C(v) 内 不 含 其 他 的 点 。 

[定理 11-3] Voronoi 图 的 直线 对 偶 图 是 S 的 一 个 三 角 剖 分 。 

结论 : 点 集 5 的 最 近 意 义 下 的 Voronoi 图 ， 其 Voronoi 点 的 数目 等 于 点 集 5 三 角 剖 分 的 三 
角形 数目 ， 而 Voronoi 多 边 形 的 数目 等 于 点 集 5 点 的 数目 。 如 果 点 集 5 存在 最 远 意 义 下 的 
Voronoi 图 ， 那 么 Voronoi 点 的 数目 等 于 点 集 凸 壳 的 三 角 衣 分 的 三 角形 数目 ， 而 Voronoi 多 边 
形 的 数目 等 于 凸 这 顶点 数目 。 在 本 节 所 述 的 算法 的 实现 中 ， 采 用 最 近 意 义 的 Voronoi 图 ， 则 
其 对 侦 图 为 网 格 点 三 角 训 分 的 结果 。 因 此 ， 可 以 根据 点 集 三 角 划 分 的 结果 来 反 过 来 求 
Voronoi 图 。 

(2) Delaunay ZÑ Æ Dirichlet 自由 变形 算法 中 ， 需 要 应 用 到 散乱 点 的 Delaunay 三 
角 剂 分 算法 。 它 是 由 俄国 数学 家 Delauany 于 1934 年 提出 的 。 可 以 用 Delaunay 三 角 剖 分 求 其 
对 偶 Voronoi 图 ， 进 而 求 Sibson 坐标 。 所 以 Delaunay 三 角 放 分 是 整个 算法 的 基础 ， 它 的 优 劣 
将 直接 影响 到 整个 算法 的 质量 。 本 节 将 详细 介绍 本 书 所 应 用 的 三 维 数据 点 的 Delaunay 三 角 
BIA ETE s 

Delaunay 三 角 网 格 可 以 定义 为 : 有 公共 边 的 Voronoi 多 边 形 称 为 相 邻 的 Voronoi 多 边 形 ， 
连接 所 有 相 邻 的 Voronoi 多 边 形 的 生长 中 心 所 形成 的 三 角 网 格 称 为 Delaunay 三 角 网 格 。 















































图 11-24 Voronoi 图 及 
其 对 侦 图 
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由 图 11-24 可 以 知道 ， 无 论 是 最 近 意 义 下 的 Voronoi 图 ， 还 是 最 远 意 义 下 的 Voronoi 图 ， 
都 与 点 集 的 三 角 训 分 有 着 密切 的 关系 。 最 近 意 义 下 Voronoi 图 的 对 偶 图 就 是 点 集 的 一 种 三 角 
训 分 ， 因 而 由 点 集 的 三 角 痢 分 可 以 计算 Voronoi 图 ; 最 远 意义 下 Voronoi 图 的 对 偶 图 是 点 集 
se (GZA) 的 一 种 三 角 剖 分 ， 由 点 集 凸 壳 三 角 谢 分 不 仅仅 是 构造 Voronoi 图 的 准备 工 
作 ， 而 且 它 本 身 有 许多 应 用 。 在 本 书 的 应 用 中 采用 前 者 ， 首 先 对 点 集 进 行 三 角 训 分 ， 然 后 由 
三 角 痢 分 的 结果 再 生成 Voronoi 图 。 

Delaunay 三 角 网 格 的 外 边界 是 一 个 凸 多 边 形 ， 它 由 节点 集中 的 凸 集 形 成 ， 通 常 称 为 凸 
壳 。 它 具有 以 下 两 个 非常 重要 的 性 质 : 

1) 空 外 接 圆 性 质 : 在 由 点 集 S 所 形成 的 Delaunay 三 角 网 格 中 ， 其 每 个 三 角形 的 外 接 圆 
均 不 包含 点 集 $ 中 的 其 他 任意 点 。 扩 展 到 三 维 空间 ， 每 个 四 面体 的 外 接 球体 均 不 包含 点 集 S 
中 的 其 他 任意 点 。 

2) 最 大 最 小 角 准 则 : 在 由 点 集 S 所 能 形成 的 三 角 网 格 中 ，Delaunay 三 角 网 格 中 三 角形 
的 最 小 角度 是 最 大 的 ， 即 对 任意 相 邻 的 两 个 三 角形 所 构成 的 四 边 形 来 说 ， 三 角 痢 分 要 求 该 四 
边 形 的 一 条 对 角 线 所 分 成 的 两 个 三 角形 的 六 个 内 角 中 的 最 小 值 将 大 于 另外 一 条 对 角 线 所 构成 
的 两 个 三 角形 的 六 个 内 角 中 的 最 小 值 ， 此 准则 使 得 三 角 剖 分 尽 可 能 避免 产生 那 种 狭长 的 、 具 
有 尖锐 内 角 的 病态 三 角形 。 但 是 到 了 三 维 (及 更 高 维 ) 空间 ， 最 大 最 小 角 准 则 不 再 成 立 ， 
这 时 会 生成 拓扑 质量 非常 差 的 Sliver 单元 ， 即 体积 相当 薄 的 单元 。 

无 论 是 在 理论 上 还 是 在 应 用 上 , 平面 凸 域内 散乱 数据 点 的 Delaunay 三 角 剖 分 算法 都 已 
非常 成 熟 ， 不 少 学 者 对 此 作出 了 贡献 : Sibson 从 Delaunay 三 角 剖 分 定义 出 发 ， 提 出 了 依据 
Thiessen 区 域 准 则 进行 优化 的 三 角 剖 分 方法 ”; Cline 与 Renka 等 提出 的 方法 是 : 首先 对 
散乱 数据 点 进行 排序 ， 再 依次 对 散乱 数据 点 进行 三 角 痢 分 处 理 ， 以 最 小 内 角 最 大 准则 进行 优 
化 。 对 散乱 数据 点 实行 预 排序 ， 可 大 大 缩短 三 角 训 分 的 时 间 。Lawson 和 Cline-Renka = ff șI) 
分 方法 在 具体 算法 及 数据 结构 上 不 尽 相 同 ， 但 它们 的 运行 效率 都 比较 高 ， 故 获得 了 广泛 的 应 
用 。 

二 维 空间 的 Delaunay 三 角 剖 分 算法 有 很 多 种 ,但 是 扩展 到 三 维 空间 ， 相 应 的 算法 和 研 
究 文献 比较 少 。 本 书 采用 广泛 应 用 的 Bowyer-Watson 算法 ， 它 可 以 应 用 于 多 维 空间 。Bow- 
yer- Watson 算法 是 通过 顺序 添加 点 到 已 经 存在 的 Delaunay 三 角 训 分 来 实现 的 ， 通 常 它 从 一 个 
简单 的 包括 将 要 进行 前 分 的 所 有 点 的 超 三 角形 开始 。 其 算法 实现 如 下 : 

2p 1: 加 入 一 个 新 的 节点 ， 找 出 所 有 外 接 圆 包含 新 加 入 节点 的 三 角形 ( 见 图 11-25) , 
并 将 这 些 三 角形 删除 ， 形 成 一 个 空 腔 。 

步 又 2: 将 空 腔 的 节点 与 新 加 入 的 节点 连接 ， 形 成 新 
的 Delaunay 三 角 网 格 ， 如 图 11-25 所 示 。 

步骤 3: 调整 数据 结构 ， 用 新 生成 的 三 角形 的 数据 填 
充 被 删除 三 角形 的 数据 ， 余 者 添加 在 数组 的 尾部 。 

步骤 4: 返回 步骤 1， 直 至 所 有 的 节点 都 加 入 为 止 。 

(3) Sibson 局 部 坐标 ”DFFD 算法 中 ， 竺 变形 物体 表 图 11.25 Bowyer-Watson 算法 
面 上 的 点 只 受 其 Sibson 邻居 的 控制 点 控制 ， 所 以 在 三 维 
的 Sibson 局 部 坐标 系 下 ， 假 设 P 为 控制 点 集合 ， 并 记 了 了 (P) xb P AY Voronoi Al, p 是 点 集 P 
的 凸 这 中 的 一 点 ，P = PU |p}, V (P') 是 P' 的 Voronoi 图 。 
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设 P 的 子 集 P,= [pl i=0, 1, 2, c, n, H.p; e P|, P, ION p 相对 于 P H Sibson 
邻居 (自然 邻居 ) RA, WE P, =P,U ipi. 
由 于 Sibson 坐标 既 反 映 了 空间 点 的 Sibson 邻居 与 该 点 之 间 的 空间 位 置 关系 ， 也 反映 了 
Sibson 邻居 之 间 的 空间 位 置 关系 ， 具 有 良好 的 空间 插值 特性 。 因 此 ， 把 Sibson 坐标 作为 Sib- 
son 邻居 对 点 的 运动 影响 系数 ， 用 (Uo, U, «+, Un) 表示 Sibson 坐标 。 diis P, AP, n 
+1 Ææ U= (Vo,，UVi，…，U,) 可 唯一 地 确定 物体 表面 上 的 点 p， 由 pos pis cos ps 的 
线形 组 合 可 得 
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p= > Up: $U.sd Vi e [0,n],U, » 0 (11-22) 
i=0 


i=0 





_ VOL(V(P,) (pi) N VCPL)ep)) 
" VOL(V(P,) (p)) 


AF, VOL () 为 返回 给 定 Voronoi 元 的 体积 ; V(P) (p) 表示 在 Voronoi [£l V(P) 中 点 p 所 在 
的 Voronoi 元 。 向 量 U; 是 构造 点 的 Sibson 坐标 。 当 移动 控制 点 时 ， 物 体 上 的 点 p 也 会 发 生 
位 移 ， 使 物体 产生 变形 。 发 生变 形 后 , p 点 的 新 的 空间 位 置 由 DFFD 算法 计算 ,得 


U, (11-23) 














p'=p+Ap=p+ > U;Ap; (11-24) 
i-0 
AF, p 和 p' 分 别 是 点 p 在 变形 前 后 的 空间 位 置 ; Ap RII Ap, 分 别 是 点 p RE Sibson 邻居 p; 的 








位 移 ，Ap; 可 等 于 0。 

下 面 以 二 维 的 情况 为 例 来 说 明 如 何 计算 点 的 Sibson 局 部 坐标 。 图 11-26 是 点 集 P = 
[Dis Pas P3, Da] 的 Voronoi Bl, p 是 点 集 P 的 凸 包 内 任意 一 点 ; 图 11-27 是 加 入 点 p 后 的 
Voronoi 单元 ， 由 于 pi、p，、p3、pPs 所 在 的 Voronoi 单元 都 与 p 所 在 的 Voronoi 单元 相 邻 ， 所 
以 它们 都 是 Sibson 的 邻居 ; 图 11-28 是 图 11-26 和 图 11-27 WAI, RAMA p 之 后 
Voronoi 图 的 变化 ， 阴 影 部 分 为 pa 对 点 p 所 在 的 Voronoi 单元 的 贡献 ， 该 贡献 在 点 bp 所 在 
Voronoi 单元 中 的 比例 就 是 p, 相对 于 点 pp 的 Sibson 局 部 坐标 值 。 















































& Po D 
ps ve - 
"Py Py *D, 
到 11-26 由 pi ~p, 图 11-227 Hp. pi ~p, AL 11-28 点 ps 对 点 p 
生成 的 Voronoi 图 生成 的 Voronoi 图 的 Voronoi 图 做 的 贡献 




















(4) 使 用 DFFD 算法 对 物体 进行 变形 的 基本 步 又 

1) 设计 控制 点 集合 。 控 制 点 集合 是 一 些 点 的 集合 ， 不 需要 在 控制 点 的 集合 上 定义 特殊 
拓扑 结构 。 控 制 点 可 以 在 待 变 物 体 的 表面 上 ， 也 可 以 在 待 变 物 体 的 内 部 ， 但 是 物体 需要 变形 
的 部 分 必须 在 控制 点 集合 的 凸 包 内 。 

2) 计算 控制 点 的 Sibson 局 部 坐标 。 针 对 物体 上 的 每 个 点 确定 其 Sibson 邻居 集合 ， 利 用 
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R (1122) 和 式 (11-23) 计算 其 Sibson 局 部 坐标 值 。 

3) 对 物体 进行 变形 。 移 动 控制 点 ， 可 以 使 用 任意 方法 移动 一 个 或 一 组 控制 点 ， 可 见 有 
多 种 实现 途径 。 然 后 根据 式 (11-24) 可 以 计算 出 物体 上 点 变化 的 位 移 和 新 位 置 ， 从 而 得 到 
物体 变形 结 


11.3.3 Dirichlet 自由 变形 算法 在 三 维 空间 中 的 应 用 


由 11. 3.2 节 内 容 可 知 ，Dirichlet 自由 变形 算法 在 二 维 空间 比较 直观 ， 推 广 到 三 维 空间 
以 后 ， 涉 及 的 Delaunay = ff FZ) fl Voronoi 图 的 生成 由 面 变 成 体 ， 数 据 量 加 大 ， 算 法 复杂 度 
加 深 。Dirichlet 自由 变形 算法 在 三 维 空间 的 实现 步骤 如 下 : 

1) 设计 控制 点 集合 ， 控 制 点 可 以 在 待 变 物体 的 表面 上 ， 也 可 以 在 物体 的 内 部 ,但 是 物 
体 需 要 变形 的 部 分 必须 包含 在 控制 点 集合 的 凸 包 内 。 

2) 对 设计 好 的 控制 点 进行 三 角 剖 分， 并 保存 前 分 结果 的 四 面体 集合 。 对 物体 上 的 每 个 
点 遍历 控制 点 的 四 面体 集合 ， 进 而 找 出 影响 该 物体 点 的 控制 点 集合 ， 即 与 每 个 物体 点 相应 的 
Sibson 邻居 集合 。 

3) 对 单个 点 物体 的 Sibson 邻居 集合 ， 进 行 Delaunay 三 角 痢 分 ， 根 据 三 角 痢 分 结果 ， 求 
物体 点 所 在 的 Voronoi 单元 和 Voronoi 单元 的 体积 。 

4) 计算 每 个 控制 点 前 分 物体 点 Voronoi 单元 所 生成 的 Voronoi 单元 及 相应 的 体积 ， 由 每 
个 控制 点 剖 分 求 得 的 体积 与 物体 点 Voronoi 单元 体积 之 比 即 为 控制 点 相对 于 物体 点 的 Sibson 
坐标 值 。 

5) 对 物体 上 的 所 有 点 进行 3)、4) 的 操作 ， 求 出 每 个 物体 点 的 Sibson 邻居 的 坐标 值 。 

6) 移动 控制 点 ， 可 以 用 任意 方法 移动 一 个 或 一 组 控制 点 ， 然 后 查找 受到 影响 的 物体 
点 ， 并 根据 上 一 步 的 Sibson 坐标 值 计算 出 物体 点 的 新 位 置 ， 从 而 达到 物体 的 变形 。 


11.3.4 应 用 Dirichlet 自由 变形 算法 生成 特定 人 脸 模型 


Candide 模型 是 一 个 没有 纹理 贴图 的 标准 模型 ， 为 了 得 到 通 真 的 人 脸 模 型 ， 必 须 对 其 进 
行 变形 ， 并 进行 纹理 贴图 。 由 于 Candide 模型 是 一 个 前 半 部 脸 的 模型 ， 以 及 OpenGL 有 强大 
的 拾取 功能 ， 因 此 提出 了 一 种 只 使 用 一 张 正 面 照 片 即 可 生成 特定 人 脸 模 型 的 方法 。 

1. OpenGL 的 拾取 功能 介绍 

应 用 OpenGL 不 仅 可 以 控制 物体 的 绘制 ， 还 可 以 对 物体 进行 标记 ， 以 及 区 分 在 指定 区 域 
上 绘制 了 哪些 物体 以 及 返回 绘图 信息 。 绘 图 模式 、 选 择 模 式 、 反 馈 模 式 构成 了 OpenGL 开发 
三 维 图 形 的 基础 。 绘 图 模式 中 ， 物 体 的 机 会 参数 、 光 照 与 材质 参数 、 纹 理 参 数 等 构成 了 交互 
式 程序 的 绘制 基础 。 选 择 模式 为 用 户 提供 了 一 种 拾取 物体 的 机 制 ， 反 馈 模 式 将 绘图 信息 加 以 
组 织 ， 并 返回 给 应 用 程序 ， 成 为 程序 设计 的 重要 资料 和 用 户 所 需 的 信息 。 

在 反馈 模式 下 ， 每 个 被 光栅 化 的 图 元 均 产 生 一 组 数据 ， 并 由 OpenGL 将 它们 存放 入 反馈 
数组 中 。 每 个 数组 均 有 一 个 标记 ， 该 标记 说 明了 基 元 的 类 型 ， 接 着 是 描述 基 元 的 顶点 坐标 
值 、 颜 色 和 纹理 等 信息 。 在 退出 反馈 模式 之 后 ， 这 些 数 据 就 被 写 和 人 反馈 数组 中 。 

与 选择 模式 相同 的 是 ， 反 馈 模 式 不 对 像素 作 任何 光栅 化 操作 ， 也 不 向 帧 缓存 写 人 任何 绘 
图 信息 ， 因 而 在 应 用 反馈 模式 之 前 ， 必 须 绘制 一 次 需要 反馈 信息 的 物体 。 

应 用 反馈 模式 的 基本 步骤 : 
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1) 确定 反馈 信息 的 信息 类 别 和 反馈 数组 ， 通 过 glFeedbackBuffer () 函数 来 完成 。 

2) 将 glRenderMode () 函数 的 参数 设置 为 GL_FEEDBACK, 使 OpenGL 进入 反馈 模式 。 

3) 重新 绘制 物体 ， 并 按 要 求 插入 标记 。 

4) 反馈 数组 的 建立 。 

建立 反馈 数组 的 glFeedbackBuffer 函数 如 下 : 

void glFeedbackBuffer (GLsizei size, GLenum type, Glfloat * buffer); Fi, size: 表示 能 
够 写 进 反馈 数组 的 数据 的 最 大 个 数 ; type: 定义 返回 数据 的 类 型 ， 取 值 含 义 见 表 11-9, 

表 11-9 type 取 值 含义 















































取 值 Gi X 
GL_2D 只 返回 顶点 的 几何 坐标 (x, y) 
GL_3D 只 返回 顶点 的 几何 坐标 (x, y, z) 
GL_3D_COLOR_TEXTURE 返回 顶点 的 几何 坐标 (*，y，z) 、 颜 色 和 纹理 值 
GL_4D_COLOR_TEXTURE 返回 顶点 的 几何 坐标 〈*，y，z，w) 、 颜 色 和 纹理 值 




















2. 人 脸 模型 变形 
本 书 应 用 OpenGL 的 反馈 模式 ， 使 用 鼠标 选择 特征 点 ， 并 移动 到 照片 的 实际 位 置 ， 这 样 
就 可 以 从 一 张 二 维 的 照片 中 获取 特征 点 〈 即 控制 点 ) 的 三 维 数据 ， 以 及 纹理 坐标 数据 。 

本 书 对 11.3. 2 节 所 述 算法 进行 了 改进 ， 提 高 了 算法 的 效率 ， 并 大 大 压缩 了 计算 变形 所 
耗 用 的 时 间 。 其 改进 如 下 : 

1) 由 于 Candide 模型 是 相对 通过 鼻尖 、 下 巴 尖 的 竖 直 轴 严 格 对 称 的 ， 并 且 需 要 变形 的 
部 位 和 数据 也 都 相对 该 轴 严 格 对 称 ， 所 以 可 以 只 对 左 半 脸 或 右 半 脸 应 用 Dirichlet 自由 变形 算 
法 ， 然 后 根据 对 称 轴 以 及 变形 的 位 置 计算 出 另外 一 半 的 变形 数据 ， 这 样 将 数据 量 压缩 了 一 
半 ， 大 大 节省 了 控制 点 的 设计 所 费时 间 以 及 运算 耗费 的 时 间 。 

2) 在 控制 点 的 设计 上 ， 人 的 脸 部 变化 是 由 
多 个 器 官 共同 作用 实现 的 ， 人 脸 的 不 同 器 官 变 形 
的 幅度 与 形状 各 不 相同 ， 所 以 需要 根据 器 官 定 义 
不 同 的 控制 域 。 本 书 参 考 MPEG-4 的 FDP 分 组 方 
式 对 Candide 模型 进行 了 控制 区 域 划分 ， 如 图 11- 
29 所 示 。 由 于 DFFD 算法 只 考虑 了 点 的 空间 位 
置 ， 没 有 考虑 点 的 连接 关系 ， 所 以 在 人 脸 变 形 
时 ， 会 产生 一 些 不 希望 的 变形 。 为 了 避免 这 种 情 
况 的 发 生 ， 将 控制 点 分 为 三 层 来 处 理 。Levell 为 
全 局 控制 点 ，Level2 、Level3 为 各 个 器 官 的 控制 
点 。 属 于 Levell 的 控制 点 运动 将 导致 Level2 控制 
点 的 位 置 移动 。 而 Level2, Level3 控制 点 的 移动 
共同 决定 器 官 上 其 他 点 的 运动 。 

3) 为 了 加 强 或 减弱 某 些 Sibson 邻居 对 三 维 
空间 点 的 运动 影响 ， 本 书 给 Sibson 坐标 的 分 量 赋 
予 权 值 w ， 由 此 得 到 加 权 的 DFFD 算法 为 
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图 11-29 ”功能 域 的 划分 
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p' =p + Ap =p + > wU,Ap; (11-25) 
i=0 


4) 此 外 ， 为 了 加 快 对 控制 点 的 选择 以 及 权 值 的 确定 ， 引 入 了 直接 自由 变形 的 思想 。 直 
接 变形 算法 的 变形 过 程 与 DFFD 算法 的 刚好 相反 ， 其 核心 思想 是 : 选择 物体 上 的 一 个 点 ， 将 
该 点 移 至 所 要 求 的 位 置 ， 反 算出 控制 顶点 的 位 置 变 化 ， 并 计算 物体 上 其 他 的 点 。 该 算法 求解 
过 程 需要 计算 抢 阵 的 广义 闭 和 矩阵。 为 了 避免 求解 广义 RREN 
道 矩阵 ， 本 书 对 该 算法 加 以 改进 ， 并 与 DFFD 算法 相 融 
合 ， 取 得 了 较 好 的 效果 。 该 方法 如 下 : 利用 OpenGL 的 
拾取 功能 ， 在 开始 特征 点 〈 即 本 书 所 述 的 控制 点 ) 的 
选择 时 ， 每 个 区 域 多 选择 一 个 非特 征 点 ， 记 录 该 点 的 
数据 。 然 后 利用 该 点 数据 ， 形 成 一 个 闭合 反馈 ， 不 断 
调整 控制 点 以 及 权 值 分 量 ， 直 到 满足 所 设 定 的 闵 值 。 
采用 这 种 方式 ， 避 免 了 盲目 地 选择 控制 点 ， 大 大 缩短 
了 控制 点 设计 时 间 。 该 算法 流程 如 图 11-30 所 示 。 

实验 结果 如 图 11-31 所 示 。 其 中 ， 图 a 为 原始 模 

， 图 b 为 输入 模型 ， 图 c 为 变形 后 的 特定 人 脸 模 型 ， 
a QURE 
可 以 通过 进一步 修改 控制 点 和 权 值 ， 使 其 更 接近 真实 
























































































































































Al 图 11-30 求解 控制 点 及 
然后 ， 根 据 先前 选取 特征 点 所 获得 的 纹理 坐标 及 RUE 
得 到 的 特定 人 脸 模 型 的 顶点 坐标 ， 在 XY 平面 投影 ， 计 算 其 他 特征 点 的 纹理 坐标 ， 并 进行 纹 











ee E a a E 
重复 性 的 读 取 。 














图 11-31 实验 结果 图 11-32 纹理 贴图 
a) 原始 模型 b) 输入 模型 c) 特定 人 脸 模型 








11.3.5 虚拟 人 脸 部 年 龄 仿真 的 实现 

本 小 节 运 用 11.3.3 节 提 出 的 改进 的 DFFD 算法 ， 实 现 虚 拟人 脸 部 结构 的 年 龄 变化 。 由 
于 控制 点 已 在 11.3.3 节 中 设计 完成 ， 本 小 节 只 需 确 定 不 同年 龄 阶段 的 控制 点 的 逼近 函数 ， 
即 可 由 特征 点 的 位 移 计 算出 非特 征 点 的 位 移 变 化 ， 然 后 针对 纹理 进行 相应 处 理 ， 得 到 最 终 目 














标 年 龄 的 仿真 结果 。 这 里 重点 对 特征 点 逼近 函数 进行 介绍 。 
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采用 RBF #22 PX) 25 8 yr [n] 4E. 89 BAE Ek ZT] A PRC, RBE 神经 网 络 是 较 常 用 的 


神经 网 络 。 

图 11-33 所 示 为 一 个 多 输入 多 输出 且 具 s 
有 MM 个 隐 层 神经 元 的 RBF 神经 网 络 模型 , 本 os 
书 所 研究 的 系统 为 多 输入 多 输出 系统 。 对 于 : 
一 个 有 天 维 输入 、M 个 隐 含 层 单元 的 网 络 ， “ 
可 以 得 出 对 于 某 个 输入 样本 Xy = [seus 
se 1! (sy 表示 第 i 个 特征 值 ) 网 络 的 输出 为 


Y, = [sy : 





ta 





m 
c 


图 11-33. RBF 神经 网 络 





Xj = > w;R(x) j= 1,2,:-,p 
i=l 








(11-26) 


AF, wy INE) i ARAA HH JS 个 节点 之 间 的 连接 权 值 ; m, p 分 别 为 隐 层 和 输出 层 


TAPE; R, WERKA, B 
R,( |X - vj I) =( | X - 9; B +o;)? 











(11-27) 


其 中 , X fen Abt Ate; 六 i ERR, EX 的 维 数 相同 ; o; 是 第 i 个 基 活 





数 的 宽度 ; WIL || X -ov || ZN X Aly; 间 的 距离 ， 通常 取 欧 几 里 得 距离 。 
本 书 采 用 天 均值 聚 类 方法 和 梯度 下 降 法 来 训练 RBF 神经 网 络 : 
(1) 用 天 均值 法 确定 聚 类 中 心 v; 
1) 随机 选择 初始 中 心 (0) (i=1,…,m) ， 给 出 初始 学 习 率 a(0) ; 
2) 计算 第 步 的 最 小 距离 : 
di(k) = |x(k) -v(k -1) | 


3) 求 最 小 距离 的 节点 q: 


Ww 


q =arg | mind,(k) | 
4) 更 新 中 心 


v(k) 2v(k-1) izg; v(k) =0,(k-1) ta(k)[x(k) -v,Ck - 1)] 


Ww 


5 


Ww 


重新 计算 第 q 个 节点 的 距离 
d,(k) = || x(k) -»,(k - 1) | 
6) 修正 学 习 率 


hed es E 


~ 1 + intl k/m] 
(2) 用 梯度 下 降 法 来 确定 ws; 
1) 随机 选择 初始 权 值 w; (0); 
2) 用 梯度 下 降 法 得 到 wj 的 更 新 式 为 
wy(k +1) = wj(k) + qRCk) (yi(k) -= y; (k) ) 














(11-28) 


(11-29) 


(11-30) 


(11-31) 


(11-32) 


(11-33) 


AF, n 为 学 习 步 长 ; y) My Ck) 分 别 是 网 络 输出 层 第 j 个 节点 的 实际 输出 和 理想 输 


He 








人 脸 特 征 点 函数 逼近 是 指 神经 网 络 的 输出 与 目标 年 龄 段 人 脸 特 征 点 相符 ， 本 书 以 人 脸 库 
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中 手动 得 到 的 人 脸 特 征 点 向 量 Fo 为 样本 ， 再 以 此 作为 RBF 神经 网 络 的 输入 进行 学 习 。 年 龄 
仿真 功能 实现 具体 步 又 如 下 : 

1) 训练 RBF 神经 网 络 : 对 于 已 有 目标 年 龄 人 像 的 图 像 ， 手 动 选 取 特征 点 向 量 F (N), 
构成 训练 样本 集 








S = {[F.(0) ,F,(0) J.-L Fe(N) FCN) ] I (11-34) 


AF, Fy (hk) 表示 第 大 个 人 脸 在 目标 年 龄 段 的 特征 点 向 量 。 用 K 均值 聚 类 方法 和 梯度 下 降 
法 来 训练 RBF 神经 网 络 ， 直 到 网 络 收敛 。 

2) 目标 年 龄 段 人 脸 特 征 点 向 量 计 算 : 对 需求 取 的 人 脸 图 像 手动 选取 得 到 其 特征 点 向 量 
Fe; WF, 作为 RBF 神经 网 络 的 输入 ， 得 到 RBF 神经 网 络 的 输出 Fro 

3) 根据 特征 点 的 位 移 计算 出 非特 征 点 的 位 移 。 

4) 处 理 纹理 贴图 ， 生 成 或 消除 皱纹 等 年 龄 特征 信息 。 

最 后 效果 如 图 11-34 所 示 。 



































图 11-34 虚拟 人 年 龄 仿真 效果 医 
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反 向 传播 
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Fisher 线性 判别 分 析 
人 脸 定义 参数 

面部 表情 

面部 表情 分 析 工 具 
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柔性 模型 
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现场 可 编程 门 阵列 
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CBN Ceneral Bayesian Network 通用 贝 叶 斯 网 络 
GMDM Gaussian Mixture Density Model 复合 高 斯 模型 
HMM Hidden Markov Model 隐 马 尔 可 夫 模 型 
IAPS International Affective Picture System 国际 情绪 图 片 系统 
LDA Linear Discriminant Analysis 线性 判别 分 析 
LFA Local Feature Analysis 局 部 特征 技术 
MAX Maximally Discriminative Facial Movement 
Coding System 最 大 限度 辨别 面部 肌肉 运动 编码 系统 
MCE Minimum classified error 最 小 分 类 错误 
MCU Micro Controller Unit 多 点 控制 单元 
MLE Maximum Likelihood Estimate 最 大 似 然 估 计 
NB Naive Bayes 朴素 贝 叶 斯 
NRUs Name Recognition Units 名 字 识 别 单元 
OCR Optical Character Recognition 光学 字符 识别 
OSE Object Superiority Effect 客体 优势 效应 
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PCA Principal Component Analysis 主 成 分 分 析 
PDF Probability Density Function 概率 密度 函数 
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PNN Probability Neural Network 概率 型 神经 网 络 
PPM Pulse Position Modulation 脉冲 位 置 调 制 
PWM Pulse Width Modulation 脉冲 宽度 调制 
RBF Radial Basis Function 44 [n] AE pR Zt 
RFFD Rational Free Form Deformation 有 理 自 由 变形 
ROI Region of Interest 感 兴趣 区 域 
SECS Self-evaluative Emotions’ Coding System 自我 评估 情绪 编码 系统 
SIUs Semantic Information Units 语义 信息 单元 
SRM Structural Risk Minimization 结构 风险 最 小 化 (有 序 风险 最 小 化 ) 
SSD Sum of Squared Differences 误差 二 次 方 总 和 
SSS Small Sample Size 小 样本 
SVD Sigular Value Decomposition 奇异 值 分 解 
SVM Support Vector Machine 支持 向 量 机 
TAN Tree-Augmented Naive Bays 树 型 扩展 朴素 贝 叶 斯 
TTS Text-To-Speech 从 文本 到 语音 
WLS Weighed Least-Squares 加 权 最 小 二 乘法 
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